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Este livro pode ser considerado resultado de varias discussoes e elucubra^oes, ao longo 
dos ultimos anos, sobre a importancia da modelagem aplicada aos mais diversos campos 
do conhecimento humano. O crescente acumulo de dados gerados, cada vez com maior 
frequencia, em ambientes academicos e organizacionais vem acompanhado do profundo 
desenvolvimento computacional e do aprimoramento dos softwares estatisticos e eco¬ 
nomic tricos. Dentro deste contexto, o Stata® e um software com grande capacidade de 
processamento de enormes bases de dados, alem de ser capaz de elaborar os mais diversos 
testes e modelos apropriados e robustos a cada situa^ao e de acordo com aquilo que o 
pesquisador e o tomador de decisao desejam. 

O software Stata® surgiu em 1985. Sua primeira versao, criada por William Gold, era 
compativel com o sistema operacional DOS. Atualmente, na versao 12, e distribuido e 
utilizado em mais de 150 paises, sendo compativel, por meio do programa Stat/Transfer, 
com a grande maioria dos softwares que utilizam bases de dados, como Excel, SPSS, SAS, 
FoxPro, Gauss, LIMDEP, Matlab, Minitab, R, S-PLUS, Statistica, entre outros. 

Alem disso, o Stata® propicia ao usuario utilizar menus automaticos do tipo point-and- 
click ou aplicar diretamente comandos e programa^oes, dispondo de recursos para 
atualiza^ao automatica por meio da Web como quase nenhum outro software. Pos- 
sibilita, por exemplo, que um pesquisador fa^a atualiza^oes de procedimentos, comandos 
e codigos, utilize macros desenvolvidas por outros pesquisadores ao redor do mundo 
ou trabalhe com bases de dados disponiveis na internet sem que, para tanto, haja algum 
custo adicional. 

Neste sentido, e com bastante satisfa^ao que apresento o primeiro livro de Metodos 
Quantitativos Aplicados por meio do software Stata® publicado em lingua portuguesa. 
O livro esta estruturado em nove capitulos, de acordo com o que segue: 

Capftulo Tlntrodu^ao 

Capftulo 2: Estatistica Descritiva,Tabelas e Graficos 
Capftulo 3: Testes de Hipotese e Analise deVariancia (ANOVA) 

Capftulo 4: Regressao Linear 
Capftulo 5:Avalia^ao dos Modelos de Regressao 
Capftulo 6: Regressao Robusta 
Capftulo 7 : Regressao Logistica 

Capftulo 8: Analise de Sobrevivencia: Procedimento Kaplan-Meier e Regressao 
de Cox 

Capftulo 9: Regressao com Dados em Painel 

Cada capitulo esta estruturado dentro de uma mesma logica de apresenta^ao, o que, 
acredito, favorece o processo de aprendizado. A aplica^ao de exemplos por meio da 
utiliza^ao do Stata® e a linha mestra, e a analise dos outputs gerados possibilita, em fun^ao 
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da teoria subjacente a cada modelagem ou tecnica, um melhor entendimento do que 
esta sendo estudado, uma vez que o passo a passo e detalhado e ilustrado e os outputs sao 
analisados e interpretados sempre com carater gerencial voltado para a tomada de decisao. 

Desta maneira, acredito que o livro seja voltado tanto para pesquisadores que, por 
diferentes razoes, se interessam especificamente por modelagem, quanto para aqueles que 
desejam aprofundar seus conhecimentos por meio da utiliza^ao do Stata®. 

Este livro e recomendado a alunos de gradua^ao e pos-gradua^ao stricto sensu em 
administra^ao, engenharia, economia, contabilidade, atuaria, psicologia, medicina e saude 
e demais campos do conhecimento relacionados as ciencias humanas, exatas e biomedicas. 
E destinado tambem a alunos de cursos de extensao, de pos-gradua^ao lato sensu e MBA's, 
profissionais de empresas, consultores e demais pesquisadores que tern, como principal 
objetivo, o tratamento e a analise de dados estatisticos com vistas a gera^ao de informa^oes 
e ao aprimoramento do conhecimento por meio da tomada de decisao. 

Aos pesquisadores que utilizarem este livro, desejo que surjam formulates de ques- 
toes de pesquisa adequadas e cada vez mais interessantes, que sejam desenvolvidos modelos 
confiaveis, robustos e uteis a tomada de decisao, que a interpreta^ao dos outputs seja mais 
amigavel e que a utiliza^ao do Stata® resulte em importantes e valiosos frutos para novas 
pesquisas e novos projetos. 

Aproveito para agradecer a todos que contribuiram para que este livro se tornasse 
realidade. Expresso aqui os mais sinceros agradecimentos aos professores da Faculdade de 
Economia, Administrate* e Contabilidade da Universidade de Sao Paulo (FEA/USP), da 
Universidade Federal do ABC (UFABC), da Funda^ao Instituto de Pesquisas Contabeis, 
Atuariais e Financeiras (FIPECAFI), da Universidade Federal de Minas Gerais (UFMG), 
e da Universidade Federal de Sao Paulo (UNIFESP), assim como aos profissionais da 
Montvero Consultoria e Treinamento Ltda., da StataCorp LP (College Station, Texas) 
e da Editora Elsevier. 

Por fim, mas nao menos importante, enfatizo que sempre serao muito bem-vindas 
contribui^oes, criticas e sugestoes, a fim de que seja sempre possivel incorporar melhorias 
nesta obra. 


Luiz Paulo Favero 
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Introdu^ao 

1.1. VISAO GERAL DO STATA® 

O Stata® e um aplicativo estatistico que propicia a criagao, a manipula^ao e o ge- 
renciamento de bancos de dados, a elabora^ao de graficos e as analises estatisticas. 
Compativel com alguns sistemas operacionais, tais como Windows®, Macintosh® ou 
Unix®, o programa reune vantagens como a facilidade de utiliza^ao, as fun^oes analiticas 
pre-programadas para gerenciamento dos dados e a possibilidade de programa^ao por 
parte dos usuarios. Essa ultima funcionalidade possibilita a adi^ao de novas capacidades 
ao programa a partir das necessidades detectadas pelos usuarios. A maioria das operates 
pode ser realizada via barra de comandos ou, mais diretamente, por sua digita^ao direta 
(HAMILTON, 2009). 

A primeira versao do programa foi lan^ada em 1985 e, a partir dai, o software foi 
sendo desenvolvido no sentido de acompanhar as necessidades de seus usuarios, angariando 
popularidade frente a competidores. O Stata® atualmente e utilizado por bioestatisticos, 
epidemiologistas, economistas, sociologos, cientistas politicos, geografos, psicologos, 
cientistas sociais e outros profissionais de pesquisas que se veem diante da necessidade de 
analisar os mais variados formatos de dados (PEVALIN; ROBSON, 2009). 

O programa e capaz de utilizar fontes externas, gerar novas variaveis, combinar 
conjuntos de dados, sumariza-los, alem de verificar possiveis erros advindos da sua 
importa^ao e/ou combina^ao. Alem disso, e possivel se trabalhar com corte transversal, 
longitudinal ou ambos, o que auxilia no entendimento de quaisquer aspectos inerentes 
ao banco de dados (BAUM, 2006). 

Em termos de estatisticas, o Stata® fornece todas as ferramentas tradicionais de es¬ 
tatisticas univariadas, bivariadas e multivariadas, que vao desde as estatisticas descritivas 
e testes t ate one-way e n-way ANOVA, analise de regressao e analise dos componentes 
principais. Alem disso, o Stata® oferece um conjunto muito poderoso de tecnicas de 
analise de variaveis dependentes qualitativas, como as tecnicas de regressao probit, logit 
e logit multinomial. O programa oferece tambem funcionalidades relacionadas a analise 
de regressao, como a realiza^ao de testes de diagnosticos, previsao, matriz de variancia 
e covariancia robusta, alem de possibilitar o uso de variaveis instrumentais e metodos 
como, por exemplo, o estimador dos minimos quadrados de dois estagios (2SLS — two- 
stages least squares) e das regressoes aparentemente nao relacionadas (SUR — seemingly 
unrelated regressions ), dentre outros (BAUM, 2006). 

Estatisticas especializadas tambem sao abrangidas de forma bastante profunda. O 
aplicativo inclui comandos especificos para series temporais (ARCH — autoregressive 
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conditional heteroskedasticity, ARIMA — autoregressive integrated moving average,VAK - 
vector autoregressive, VEC — vector error correction), modelos de simulagao e bootstrapping, 
estimativas de maxima verossimilhan^a, e minimos quadrados nao lineares. Familias 
de comandos fornecem as tecnicas principals utilizadas em cada uma das varias categorias: 
os “xt”, comandos para dados em painel; e os “st”, comandos para dados destinados a 
analise de sobrevivencia. 

Os graficos do Stata® tern sido melhorados e aprimorados, possibilitando uma 
analise exploratoria consistente dos dados e sua exporta^ao para publica^ao e relatorios 
tecnicos em diversas formas disponiveis. Cada aspecto grafico pode ser programado e 
personalizado, e novos tipos de graficos sao continuamente desenvolvidos. Em adi^ao, a 
capacidade de programa^ao implica a possibilidade de gera^ao de uma serie de graficos 
semelhantes, muito rapidamente (BAUM, 2006). 

Usuarios novos e potenciais do Stata® geralmente se questionam acerca das possiveis 
vantagens que esse aplicativo possui frente aos seus competidores e, principalmente, suas 
vantagens frente ao SPSS® (programa estatistico licenciado pela IBM® e largamente utiliza- 
do no tratamento e na analise de dados). Dentre suas vantagens,pode-se citar a aplica^ao de 
comandos mais intuitivos e com uma sintaxe mais simples. A participa^ao de seus usuarios 
tambem merece destaque, pois colaboram na cria^ao da maior parte dos aplicativos das 
novas versoes. Relacionado a esse ponto, tem-se o fato de que o software e conectado 
a internet e nao ha restri^oes de conteudo, ou seja, e possivel a instala^ao de novas 
rotinas que foram elaboradas pelos proprios usuarios e que sao destinadas a realiza^ao de 
tarefas especificas. As extensoes cobrem uma vasta area de aplica^ao, e a possibilidade 
de simplesmente procurar um procedimento na internet e instala-lo rapidamente cons- 
titui uma vantagem inegavel do Stata®. Alem disso, o software e particularmente amigavel, 
quando da necessidade de analise de uma base extensa e complexa de dados (PEVALIN; 
ROBSON, 2009). Portanto, pode-se resumir as vantagens oferecidas pelo Stata® nos 
topicos a seguir: 

• Ampla utiliza^ao em pesquisas empiricas de Contabilidade, Administra^ao, Finan^as 

e Economia. 

• Simplicidade de utiliza^ao quando comparado com ferramentas similares, como o 
“R” e o SAS®. 

• Sintaxe simples e intuitiva. 

• Possibilidade de utiliza^ao de comandos desenvolvidos por terceiros. 

• Gerenciamento robusto de grandes bases de dados. 

O Stata® possui menus e janelas que visam facilitar seu uso, podendo ser empregados 
quando se realizam procedimentos nao familiares. A sintaxe do Stata® e consistente e 
intuitiva, o que auxilia seus usuarios a trabalharem de maneira direta, tornando sim¬ 
ples tarefas complexas e repetitivas. Os icones e os menus, em conjunto com a janela de 
comandos, podem ser empregados de maneira conjunta, adaptando-se as necessidades 
enfrentadas pelos usuarios durante a utiliza^ao do software (Figuras 1.1 e 1.2). 
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Figura 1.1 Principals janelas do Stata ®, versao 12. 



Figura 1.2 Componentes da tela inicial do Stata®. 


Janela de comandos 

A janela de comandos (command window) e iniciada quando o Stata® e carregado. Por 
padrao, e localizada na parte inferior da tela. A janela de comandos permite que as fun^oes 
sejam executadas rapidamente, mas somente se o usuario conhecer os comandos basicos. 

Janela de revisao 

A janela de revisao (review window) dos comandos utilizados e, por padrao, posicionada 
no canto superior esquerdo da tela.Todos os comandos sao gravados nessa tela. Digitado 
um comando na janela de comandos, posteriormente ele sera exibido e armazenado 
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automaticamente na janela de revisao. A janela de revisao e particularmente conveniente 
na analise exploratoria de dados, quando o mesmo comando e utilizado com frequencia 
para avaliar diferentes variaveis. Para reexecutar um comando, basta clicar no comando 
indicado na janela Review. Outra op^ao consiste na utiliza^ao da tecla PgUp {page 
up); quando o cursor estiver dentro da janela de comandos, a partir da digita^ao dessa 
tecla a sequencia de comandos anteriormente executada sera apresentada. O comando 
reaparecera na janela de comandos, permitindo sua edi^ao. Se um clique duplo e dado 
em cima do comando da janela Review, o Stata® ira executa-lo automaticamente. 

Toda vez que executarmos uma a^ao via menus, automaticamente o Stata® mostrara 
o comando correspondente na janela de resultados. O comando use e o comando de 
abertura (carregamento) de arquivos. 

Arquivos utilizados pelo Stata® 

Os bancos de dados em Stata® possuem extensao .dta, sendo que existem duas versoes: 
uma para as versoes anteriores a de numero lie outra para as versoes de numeros 11 e 12. 

Os programas (sintaxe) possuem extensao .do e compreendem um conjunto de 
comandos desenvolvidos por um usuario para automatizar a execu^ao de determinados 
procedimentos. A sua visualiza^ao e possivel atraves do uso do do-file editor (editor de 
do-files ). 

Os resultados ( outputs ) possuem as extensoes .log e .smcl. A primeira extensao 
pode ser visualizada em qualquer aplicativo que manipule arquivos no formato txt. A 
segunda extensao, denominada log formatado para o Stata®, somente e visualizada no 
proprio aplicativo. 

Data Browser e Data Editor: visualiza£ao e edi£ao dos dados 

Existem diversas formas de introduzir dados no Stata®. A primeira delas consiste na 
digita^ao direta no editor de dados do Stata®. Esse editor e ativado a partir de um botao, 
conforme mostra a Figura 1.3. Com a ativa^ao do editor de dados surge uma nova janela, 
que e uma matriz, cujas linhas representam as observa^oes, e as colunas, as variaveis. 
Normalmente dados estatisticos sao apresentados na forma bruta de um conjunto de 
individuos (que sao as observa^oes-linhas) com informa^oes para diversas caracteristicas 
(que sao as variaveis-colunas). 


::l Stata/SC 12.0 [Results] | 

File Edit Data Graphics Statistics User Window Help 

J? , J y| d ” O 

Review T 9 x 

<R> 

/_ / _/ / _/ 

_ / / / _/ / / _ / 12.0 Copyright 1985-2011 StataCorp LP 

Statistics/Data Analysis StataCorp 

4905 Lakeway Drive 

Special Edition College Station, Texas 77845 USA 

800-STATA-PC http: / /www. stata. corn 

979-696-4600 stata0stata.com 

979-696-4601 (fax) 

# Command rc 

There are no items to show. 


Figura 1.3 Tela inicial do Stata®, versao 12. 
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Algumas vezes,por acidente, voce pode fechar uma das janelas do Stata®. Nesse caso, 
basta recorrer a barra de comandos Window e reativar a janela. Por exemplo, caso 
a janela de revisao dos comandos utilizados desapare^a da tela do software, e possivel 
recupera-la, como demonstrado na Figura 1.4. 


?„ Stata/St 12.0 [Results] 


File Edit Data Graphics Statistics User 

■j " J 21’ 


Window I Help 



Figura 1.4 Acessando os comandos da barra de menus. 


Cabe destacar que o Stata® diferencia, na grafia das palavras, as letras maiusculas e 
minusculas (ou seja, e case sensitive). Nesse sentido, podemos citar como exemplo o co- 
mando edit. No Stata® o comando edit ira acionar a janela de edi^ao dos dados, contudo, 
comandos como Edit ou EDIT nao sao identificados pelo programa. Seguindo nessa 
mesma linha de raciocmio, as variaveis Id e id seriam consideradas duas variaveis distintas. 


1.2. RECURSOS NECESSARIOS E APLICADOS DO STATA® 

1.2.1 Update 

Apos a instala^ao do software, e comum a exibi^ao de uma caixa de texto que per- 
mite a sua atualiza^ao. Clique em OK e depois selecione na nova janela a op^ao update 
all (Figura 1.5). 


Check for Updates 


It has been 7 days since you last checked for 
updates. Would you like to check now? 

© Check for updates now 
O Check next time Stata is launched 
O Check in 7 days 
O Disable automatic update checking 

PI Always prompt before checking for updates 
| OK 


Figura 1.5 Verificando atualizagdes. 
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Caso essa opgao nao aparega, digite update all no prompt de comando (janela 
command) do Stata® (Sintaxe 1.1). 


SINTAXE 1.1 Comando update, 

update [query] [all] 

Em que: 

• query: Op^ao que verifica o nivel de atualizagao da versao instalada com a versao existente 
no site www.stata.com. 

• all: Op^ao que atualiza todos os comandos. 


1.2.2 Background/ambiente do usuario 

O piano de fundo da area de trabalho ( background ), onde estao localizadas informa^oes 
sobre os comandos e os seus resultados, pode ser personalizado. Esse procedimento esta 
dispomvel na op^ao preferences, disponibilizada a partir do clique inicial do botao 
direito do mouse na tela de resultados (Figura 1.6). 


. Stata/SE 12.0 [Results] 


File Edit Data Graphics Statistics User Window Help 

.V • “ J ' - A " A _J Jj O 

Review 

* Command 


There are no items to show. 





Copy 

Copy Table 

Copy Table as HTML 

Copy as Picture 

Select All Ctrl+A 



Font... 


Print... 




Figura 1.6 Acessando a opqao preferences na tela principal. 


O Stata® oferece uma maneira de se salvar os procedimentos realizados ao longo da 
se^ao, os comandos e as tabelas de resultado. Para se iniciar a grava^ao do tipo log por 
intermedio do comando log using nome_do_arquivo , especificar o nome do arquivo no 
qual os comandos e resultados serao armazenados. De maneira alternativa, um arquivo 
.log pode ser criado a partir da sele^ao das seguintes op^oes na barra de menu: File ~} 
Log Begin , ou ainda por intermedio do comando direto (Sintaxe 1.2). 


SINTAXE 1.2 Comando log. 

log [using "filename"] [close] 

Em que: 

• filename: Nome do arquivo no qual os resultados serao armazenados. 

• close: Fechar o arquivo de log que estava sendo utilizado. 
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O arquivo de log pode ser criado no formato Stata (.smcl), ou em um formato de 
texto comum (•log). O arquivo .smcl (Stata mark up and control language) e indicado 
para visualiza^ao a impressao diretamente do Stata®. Esse arquivo pode controlar hyperlinks 
que auxiliem a entender os comandos ou mensagens de erro. Os arquivos do tipo .log, 
por sua vez, nao exibem essa formata^ao, e sao indicados caso se deseje inserir ou editar 
saidas do programa ( outputs ) em processadores de texto, tais como o Word (Figura 1.7). 


Stata/SE 12.0 [Results] 


File | Edit Data Graphics Statistics User Window Help 


£2? Op«n... CW+O 


A 77 

X 


View... 



Do... 



Filename... 



Change Working Directory... 



Log ► 

Begn... 

Import * 


Close 

Export ► 


Suspend 

lA Print ► 


Resume 

Example Datasets... 


View... 

Recent Datasets ► 


Translate... 

Exit 




Figura 1.7 Gerando um arquivo de log por meio da barra de menus. 


Ao terminar de usar o Stata®, se o usuario estiver utilizando a grava^ao em arquivo 
log, e recomendavel que seja fechado o respectivo arquivo com o uso do comando log 
close. Esse comando ira evitar problemas de compartilhamento do arquivo de log e 
garantira que as ultimas operates serao gravadas no respectivo arquivo. 

O Stata® trabalha com os dados copiando-os na memoria RAM. Quando o banco 
de dados e aberto, nenhuma mudan^a e realizada ate que este esteja salvo. O fato de usar 
uma copia dos dados e importante porque: 

• Quando se utiliza o comando use nome_do_arquivo , os dados sao copiados para a 
memoria do computador, e o arquivo original e fechado (Sintaxe 1.3). 


SINTAXE 1.3 Comando use. 

use "filename" [, clear] 

Em que: 

• filename: Nome do arquivo que sera aberto. Se no nome do arquivo existir algum espago 
em branco e necessario utilizar aspas. 

• clear: A opgao clear somente e necessaria quando ja tiver sido aberta outra base de dados 
e desejamos simplesmente que o Stata® ignore a base aberta e passe a utilizar a base que 
estamos informando no comando. 
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• Voce pode fazer o que quiser com os dados na memoria, e a copia permanente 
continuara a mesma em seu disco. 

• A unica forma de mudar uma copia permanente dos dados e utilizando o comando 
save (Sintaxe 1.4). 


SINTAXE1.4 Comando save, 

save "filename" 

Em que: 

• filename: Nome do arquivo que sera salvo. 


• Alem disso, se algum erro e reportado, nenhuma mudan^a e realizada no banco que 
se encontra na memoria. 

1.2.3 Quantidade de memoria utilizada 

A defmi^ao da quantidade da memoria disponivel no computador a ser utilizada 
pelo programa constitui um aspecto importante quando da utiliza^ao de bases de dados 
“pesadas”, que exigem muita memoria. Na janela de comandos do Stata®, digite set 
mem # (Sintaxe 1.5), em que # e a quantidade de memoria a ser reservada para uso 
das estimates durante sua sessao do Stata®. 


SINTAXE 1.5 Comando set mem. 

set mem # 

Em que: 

• #: Quantidade de memoria. 


Exemplo: set mem 2m (por exemplo, muda para 2mb a memoria disponivel para 
ser utilizada pelo aplicativo) 

O Stata®, versao 12, oferece um avan^o em rela^ao as demais versoes. A partir dessa 
versao nao e mais necessario estabelecer a quantidade de memoria a ser utilizada, sendo 
que o programa aloca a quantidade maxima de memoria possivel para execu^ao dos 
comandos. 

1.2.4 Fontes de consulta 

O Stata® oferece fontes de consulta para que os usuarios solucionem suas duvidas in- 
dependentemente dos niveis de dificuldade. Uma quantidade consideravel de fontes sobre o 
aplicativo esta disponivel para consulta, das quais apenas a menor parcela e ligada a StatCorp 
(empresa responsavel por criar, vender e distribuir o Stata®, alem de outros produtos), sendo 
a maioria fornecida por uma comunidade ativa de usuarios (PEVALIN; ROBSON, 2009). 


Introdugao 


9 


Stata: <http://www.stata.com/> 

No site oficial da StataCorp e possivel adquirir informa^oes sobre os produtos da 
StataCorp, obter suporte tecnico para todas as versoes do Stata®. Nos menus do Stata® e 
possivel encontrar informa^oes sobre encontros, treinamentos, publica^oes, atualiza^oes 
tecnicas, entre outros. 

Statalist: <www.hsph.havard.edu/statalist> 

O StataList e um grupo aberto de mensagens por e-mail (uma lista de discussao), 
sendo que qualquer interessado pode se inscrever. Existe um grande fluxo de mensagens 
diarias da lista, o que pode se tornar um inconveniente. Contudo, e possivel escolher 
uma versao na qual os e-mails sao condensados, reduzindo significativamente o numero 
de mensagens recebidas.Tambem existem arquivos on-line do StataList que podem ser 
consultados. 

Portal de Estatistica Computacional da Universidade da California de Los 
Angeles (UCLA): <http://www.ats.ucla.edu/stat/stata/> 

A Universidade da California possui um portal sobre o Stata®, sendo que qualquer 
interessado pode acessar. O site, proporcionado pela UCLA Academic Technology Service 
Stata Consulting Group, auxilia usuarios gratuitamente. O site e uma rica fonte de notas 
de curso, tutoriais e exemplos detalhados que incluem comandos do Stata®, saida do 
programa e discussoes dos outputs do programa. 

Stata Journal: <http://www.statajournal.com> 

O Stata Journal e um periodico publicado trimestralmente tanto em meio fisico 
como eletronico. Contem artigos escritos sobre o Stata®, alem de adi^oes ao software 
elaboradas pelos usuarios, contribuindo para a evolu^ao do programa ao longo de suas 
versoes. 

Stata Help Files 

Se o usuario esta interessado em um comando especifico, o menu help o auxilia 
na procura de palavras-chave (keyword). No menu Help, e possivel entender o que cada 
comando realiza alem, de explicitar op^oes que podem ser combinadas. Geralmente, 
existem exemplos que podem auxiliar no processo de analise dos resultados (PEVALIN; 
ROBSON, 2009) (Sintaxe 1.6). 


SINTAXE 1.6 Comando help, 

help [command_or_topic_name] 

Em que: 

• command_or_topic_name: Comando ou assunto para o qual se deseja visualizar a ajuda 
do Stata®. 


Por exemplo, se digitarmos, na janela de comandos, help regression, ira aparecer uma 
janela, conforme a Figura 1.8. 


10 


Metodos Quantitativos com Stata' 


ELSEVIER 


|D Viewer - search regression 


Ffc tdr tester/ neb 


£■) s. 5M-chre^«5ton 

/j, 

search regression X 

. X 

> 


help tor regression not found 

try help contents or search regression 


search for regression 

(manual: [R] search) 


Keywords: regression 

Search: <1> Official help files, FAQs, Examples, SJs, and STBs 


Search of official help flics, FAQs, Examples, SJs, and STBs 


(11) Chapter Zll.Csrimtinn and pnaeeat.imat.inn nnmnanda 

(help esteem-, postest, weights) 

[0] Chapter 25 .... Working with categorical data and factor variables 

(help generate, fwarlist) 

TO! Chapter 25.Overview of Stata estimation conmands 

(help estcuic) 

(KJ regress . Linear regression 

(help regress) 

[R] regress postestimation . Postestimation tools for regress 

(help regress postestimation) 

[R] regress postestimation time series Postest. regress with time series 
(help regress postestimatlonts) 

[R] logistic . Logistic regression, reporting odds ratios 

(help logistic) 

(Kj probit.Promt regression 

(help probit} 

[R] poisson . Poisson regression 

(help poisson) 

Figura 1.8 Ajuda para o topico regression . 


O comando findit (Sintaxe 1.7) realiza buscas com base em determinada palavra- 
chave. Essas buscas envolvem tanto os arquivos de ajuda instalados no computador do 


SINTAXE 1.7 Comando findit. 

findit word 

Em que: 

• word: Termo a ser pesquisado. 


usuario quanto os arquivos de ajuda on-line e das duvidas frequentes no site do Stata®, 
no Stata Journal e nas demais fontes on-line reconhecidas pelo aplicativo. Existe tambem 
o comando search, apresentado na Sintaxe 1.8. 

SINTAXE 1.8 Comando search. 

search word 

Em que: 

• word: Termo a ser pesquisado. 

O comando search e utilizado para a procura da palavra-chave na internet, en- 
quanto o comando net search (Sintaxe 1.9) e utilizado para a procura por pacotes 
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SINTAXE 1.9 Comando net search, 

net search word 

Em que: 

• word: Termo a ser pesquisado. 


(conjunto de comandos para a realiza^ao de procedimentos especificos, como o calculo 
de determinada estatistica, ou para a realiza^ao de um teste) no site www.stata.com, para 
a instala^ao no computador do usuario. E possivel utilizar abrevia^oes de comandos. 

Guia do Usuario do Stata® e Manual de Referencia 

O guia do usuario ( User’s Guide ) oferece informa^oes introdutorias do programa. 
O conteudo do livro e encontrado no site, ou pode ser adquirido em conjunto com 
o programa. Os manuais de referencia sao otimas fontes de informa^oes estatisticas, 
com exemplos detalhados incluidos. Alem disso, existem manuais de referencia para 
assuntos especificos, apesar de estes variarem um pouco em fun^ao da versao utilizada 
do Stata®. 


1.3. JANELADE COMANDOS DO STATA® 

Alem da utiliza^ao de comandos, o Stata® pode ser utilizado em um modo in- 
terativo, a partir de “cliques” para aqueles que desejam utilizar o seu sistema de menus. 
Entretanto, mesmo ao executar os comandos por meio da barra de menus, o programa 
registra o comando equivalente na janela de revisao e na janela de resultados. Assim, a 
partir da experiencia e possivel aprender os comandos e posteriormente reutiliza-los ou 
mesmo modifica-los de maneira mais rapida. 

A utiliza^ao de comandos apresenta algumas vantagens, dentre as quais a capacidade 
de reprodu^ao dos resultados. Para que uma estima^ao possa ser considerada confiavel, de 
maneira ideal, qualquer pessoa que acesse os mesmos programas e a mesma base de dados 
devera ser capaz de reproduzir os mesmos resultados. Caso contrario, a confiabilidade da 
pesquisa pode ser questionada. 

Em um programa de computador em que todas as a^oes sao realizadas a partir da 
sele^ao de menus, como uma planilha, a descri^ao dos passos para se alcan^ar deter- 
minado conjunto de resultados e dificultada. A menos que cada passo e suas respectivas 
transforma^oes possam ser recuperados, como garantir que os resultados com a amostra 
podem ser replicados em uma nova amostra? Um programa baseado em comandos pos- 
sibilita a reprodu^ao dos passos de uma estima^ao. Reprodutibilidade essa que facilita 
tambem a realiza^ao de analises alternativas de um modelo especifico. 

O Stata® possibilita a gera^ao de um arquivo contendo apenas os comandos digitados, 
e o editor de do-file permite que a sequencia de comandos ou fragmentos de programas 
sejam acessados, executados e salvos. 
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1.4. ENTRADA E MANIPULA^AO DE DADOS NO STATA® 

O primeiro passo na analise dos dados envolve organizar os dados brutos em um 
arquivo no formato dos bancos de dados do Stata®. 

1.4.1 Dados primarios 

No caso de dados primarios (coletados com instrumentos proprios pelo usuario), 
e possivel utilizar o DataEntry para criar formularios de entrada dos dados. Apos a 
digitaliza^ao das informa^oes, e feita a transference dessas para um banco de dados no 
formato utilizado pelo Stata®. O comando utilizado sera o edit (Sintaxe 1.10). 


SINTAXE1.10 Comando edit, 

edit [varlist] [if] [in] 

Em que: 

• varlist: Caso nao se queira editar toda a base de dados, podemos informar uma lista de 
variaveis, separando-as por espa^os em branco. 

• if: A clausula if (se) permite que o usuario estabele^a condigCes que limitarao a quantidade 
de informa^oes que sera exibida. 

• in: A clausula in (em) permite a sele<;ao das observances de acordo com a ordem de clas- 
sifica^ao utilizada pela base de dados. 


O comando edit pode ser acessado com o icone “Data Editor” da barra de ferramentas. 

As variaveis que aparecem na cor preta nao possuem rotulos e sao variaveis quantita- 
tivas. Uma variavel quantitativa pode ser descrita por um numero para o qual operates 
aritmeticas, tais como media e desvio-padrao, fazem send do. As demais variaveis (que sao 
apresentadas em outras cores) foram consideradas variaveis qualitativas pelo programa.Va- 
riaveis qualitativas (ou categoricas),por outro lado, sao simples registros de uma qualidade/ 
caracteristica. Dentre as variaveis qualitativas, as que aparecem na cor azul possuem o rotulo 
visualizado, e as que apresentam a cor vermelha sao variaveis nominais (string ou character ). 

Uma segunda forma de se introduzir dados no Stata® e a abertura de arquivos ja 
preparados no formato do software. Esses arquivos de dados tern uma extensao .dta, 
e utilizaremos um arquivo de exemplo que podera ser encontrado no diretorio C:\ 
Arquivos de Programas\Statal2 denominado auto.dta. Para carregar esse arquivo va 
ate o menu File Open e busque o arquivo auto, dta neste caminho. 

O Stata® permite a importa^ao ou exporta^ao para outros formatos de bancos de 
dados. Por exemplo, na versao 12, e possivel a importa^ao direta de planilhas eletronicas 
nos formatos utilizados pelo Excel® 97, 2003 e 2010. Em outras versoes existe a pos- 
sibilidade de utiliza^ao de arquivos no formato texto, no formato utilizado pelo SAS®, 
no formato XML (extensible mark-up language) ou diretamente em bases de dados 
relacionais (MySQL, por exemplo). 
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1.4.2 Stat Transfer® 

Uma forma facil de converter bancos de dados de um programa para outro e com o 
Stat Transfer® (Figura 1.9). Esse aplicativo pode ser considerado como um complemento 
aos usuarios do Stata® (www.stattransfer.com) que possibilita a conversao entre diferentes 
formatos de dados. Dados em formatos utilizados por SPSS®, SAS® ou Excel® sao 
convertidos para arquivos no formato reconhecido pelo Stata® facilmente. O programa 
possibilita a conversao de arquivos nao apenas para o formato Stata®, mas entre diversos 
formatos de arquivo, abrangendo ampla gama de programas estatisticos e econometricos 
convencionalmente utilizados emAdministra^ao, Contabilidade, Economia, Engenharia, 
Bioestatistica, entre outras areas do conhecimento. 


Nome 

Tamanho 

Tipo 

2jdna.dll 

49SKB 

Extensao de apkativo 

Hfcopy.exe 

24 KB 

Apkativo 

3jiconv.dll 

868 KB 

Extensao de apkativo 

"*• LastUpdate.xml 

1 KB 

DocumentoXM 

Slibxml2.dll 

939 KB 

Extensao de apkativo 

Hlicense.dat 

1KB 

Arquivo DAT 

0 readme.txt 

2KB 

Documento de texto 

■^select, rtf 

9KB 

Formato Rich Text 


1.888 KB 

Apkativo 

[JJ* st.chm 

255 KB 

Arquvo compilado da Ajuda em HTML 

Qst.exe 

88 KB 

Apkativo 

sta.ico 

25 KB 

leone 

Stadev32.dll 

76 KB 

ExtensSo de apkativo 

^ statrn32.dll 

760 KB 

Extensao de aplicativo 

Jr) stodbc32.dll 

72 KB 

ExtensSo de aplicativo 

(Dstupdate9.zip 

1.154 KB 

Pasta compactada (zipada) 

Jitutil.dll 

28 KB 

ExtensSo de apkativo 

TOstwin9.pdf 

1.973 KB 

Adobe Acr obat Document 

jjuninst.exe 

61KB 

Apkativo 

a) WebUpdateS vc4. LIC 

1KB 

License 

Bflwuwrtub.ex8 

25 KB 

Apkativo 

^ zlibl.dll 

72 KB 

Extensao de apkativo 


Figura 1.9 Acionando o Stat Transfer®. 


A Figura 1.10 mostra a tela inicial do Stat Transfer®, versao 9. 

O programa apresenta duas op^oes de dados: o tipo de entrada de dados (Input File 
Type) e o tipo de saida dos dados (Output File Type). Na primeira entrada se explicita a 
extensao do programa de origem dos dados, e imediatamente abaixo (File Specification) 



Figura 1.10 Tela inicial do Stat Transfer®. 
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e selecionado onde o arquivo esta localizado (o botao browse pode ser utilizado para a 
localiza^ao do arquivo). 

O proximo passo e escolher a extensao do programa em que se deseja ter os dados, 
atraves da op^ao de saida dos dados (Output FileType).\Jui 2 i vez selecionado o formato, 
na parte inferior e estabelecido onde sera salvo o novo arquivo. Caso nao seja alterado 
o local de saida dos dados, o Stat Transfer® automaticamente salvara o novo arquivo no 
mesmo local onde se encontram os dados originais. 

Dessa maneira, e possivel utilizar o Excel® para organizar bancos de dados secundarios, 
ja que esse e um programa mais acessivel e com mais recursos para a edi^ao de dados. 
Apos a organiza^ao dos dados, o Stat Transfer® pode ser utilizado para transferir os dados 
para um arquivo no formato padrao do Stata®, permitindo fazer analises estatisticas mais 
sofisticadas. 

Depois de selecionados os tipos de dados de entrada, saida, e suas respectivas localiza- 
£oes, e possivel ativar a op^ao Transfer , solicitando que o programa inicie a transforma^ao 
dos dados para a nova extensao. Terminado o processo, e possivel ver o novo arquivo 
criado com a extensao predefmida. Tambem e possivel iniciar outro processo com a 
opgao reset ou sair do programa com a op^ao Exit (Figura 1.11). 



Figura 1.11 Janela do Stat Transfer®. 


1.4.3 Unindo duas bases de dados 

Combinar dois conjuntos de dados e uma tarefa comum no gerenciamento de 
dados. Para realizar essa tarefa e necessario se certificar de que a estrutura de ambos os 
conjuntos e a logica de organiza^ao dos dados e a mesma. O Stata® trabalha sempre com 
um conjunto de dados de cada vez. Porem, e possivel combinar um conjunto de dados 
(o primeiro e denominado master) com outro conjunto salvo pelo usuario (denominado 
using) (Figura 1.12). 
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Figura 1.12 Unindo duas bases de dados. 

O comando append (Sintaxe 1.11) e utilizado para adicionar novas observa^oes, oriun- 
das do conjunto de dados using, a um conjunto de dados, denominado master. O comando 

SINTAXE 1.11 Comando append, 

append using filename 

Em que: 

• filename: Nome do arquivo que contem os dados que serao adicionados a base de dados 
que esta aberta. 


append e indicado quando as variaveis de dois bancos de dados sao iguais, mas possuem 
observa^oes distintas. Por exemplo, um conjunto de dados sobre pessoas de Minas Gerais 
pode ser adicionado ao arquivo master com dados sobre pessoas de Sao Paulo. As variaveis 
devem apresentar as mesmas denominates. Se uma variavel aparece em apenas um dos 
conjuntos de dados, as demais observa^oes serao caracterizadas como dados faltantes ( mis¬ 
sings ou missing values).A sintaxe para a execugao desse tipo de procedimento e simples:basta 
carregar o arquivo mestre e definir para o programa qual a base de dados que sera anexada. 

Por exemplo, suponha que se deseje adicionar ao arquivo banco 1 o arquivo banco 
2. Nesse caso, o arquivo banco 1 sera considerado o arquivo master. Nas Figuras 1.13 
e 1.14 sao apresentados os dois bancos de dados. 



Figura 1.13 Janela do editor de dados - arquivo 

banco 1 .dta. 


File Edit 

L3f J -O 

View Data Tods 

[Du y&s;** 




1 



fc' 


cpf 

idade 

sexo 

renda 

end1v1dame~o 

i 

i 

17893889340 

55 

F 

2548 

4080 

■ 
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31461934848 

12 

M 

3695 

5760 


3 

98118784083 

53 

F 

1354 

1797.6 


4 

82461824S50 

20 

M 

2S74 

400 


5 

64100S7SS0S 

35 

F 

896 

766 


6 

45956123114 

24 

M 

987 

1050 


7 

26224329599 

43 

F 

2200 

350 


8 

17325302734 

61 

F 

3400 

1750 


9 

46944078123 

28 

M 

4800 

499.5 


10 

8817149S8S7 

37 

M 

1498 

2SS0 









Figura 1.14 Janela do editor de dados - arquivo 

banco 2.dta. 
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Aberto o arquivo mestre, basta solicitar ao programa que o arquivo desejado, no caso 
o arquivo banco 2, seja anexado, como demonstrado na Figura 1.15. Para acessar esse 
comando via barra de menus, clique nas seguintes op^oes: Data ^ Combine datasets 
Append datasets. 



Figura 1.15 Janela de configuraqoes do comando append. 

O comando equivalente para execu^ao desse procedimento e: 

append using “C:\Documents and SettingsXMeus documentos\arquivo 
banco 2.dta” 

O resultado e um arquivo contendo 20 observa^oes (Figura 1.16). Resultado da 
jun^ao de 10 observa^oes do arquivo 1 e 10 observa^oes do arquivo 2. 


3 

Data Editor (Edit) - [banco 1 .dta] jl 

File Edit View Data Tools 

iJ y ^ Ci Huf T h ^ 

i_ 
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cpf idade 

sexo 

renda 
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l 
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35 

F 
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| 

2 
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3 
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4 
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5 
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F 
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6 
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22 

M 
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7 

91085123405 

18 

M 
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e 
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42 

M 
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1075.2 


9 
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34 

M 
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1184.4 


10 
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17 

F 
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2040 


11 
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55 

F 

2548 

4080 


12 

31401934848 

12 

M 

3095 

5700 


13 

98118784083 

53 

F 

1354 

1797.0 


14 

82401824550 

20 

M 

2574 

400 


15 

04100575505 

35 

F 

890 

700 


10 

45950123114 

24 

M 

987 

1050 


17 

20224329599 

43 

F 

2200 

350 


1$ 

17325302734 

01 

F 

3400 

1750 


19 

40944078123 

28 

M 

4800 

499.5 


20 

88171495857 

37 

M 

1498 

2550 


Figura 1.16 Janela do editor de dados, apos o comando append. 
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1.4.4 Mesclando duas bases de dados 

O comando merge (Sintaxe 1.12) e responsavel por fundir as observa^oes de dois 
conjuntos de dados. A ideia principal desse comando e permitir a jun^ao de dois conjuntos 
de dados que possuem variaveis diferentes, com exce^ao da variavel-chave, porem, tratam 


SINTAXE 1.12 Comando merge, 

merge 1:1 varlist using filename 

Em que: 

• varlist: Lista de variaveis utilizadas como codigo identificador. 

• filename: Nome do arquivo que contem os dados que serao adicionados a base de dados 
que esta aberta. 


da mesma observa^ao. O comando mescla em uma mesma linha as variaveis que 
tenham o mesmo valor para uma variavel-chave, que e utilizada como um codigo 
identificador. E muito importante, portanto, que a variavel-chave tenha o mesmo 
formato em ambos os conjuntos de dados. Assim, por exemplo, caso se deseje fundir 
duas bases de dados de institui^oes financeiras que contenham caracteristicas de 
clientes, pode-se ordenar essa fusao por uma variavel-chave, tal como o CPF (cadastro 
de pessoa fisica) (Figura 1.17). 


- >1 


r \ 

Master 


Using 

V_ ) 


V _ _ ) 


Merge 



Nova Base 
de Dados 



Figura 1.17 Mesclando duas bases de dados. 


Se as observa^oes dos dois conjuntos de dados nao coincidem, o programa apresentara 
campos em branco (missing values ) para as variaveis em que a observa^ao nao encontrou 
correspondence. Uma vez que a viabilidade de um projeto de pesquisa depende, muitas 
vezes, de quantas observa^oes realmente foi possivel mesclar (por exemplo, quantas pes- 
soas de uma base de dados de pesquisa podem ser encontradas em uma segunda base de 
dados), o Stata® fornece ferramentas para descobrir quantas observa^oes realmente foram 
mescladas.Vamos considerar as duas bases de dados da Figura 1.18. 
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|h* Data Editor (Edit) - [banco 3.dta] i 

li Data Editor (Edit) - [banco 4.dta] j 

File Edit 

View Date Tools 



File Edit 

View Data Toots 



lJ 

A j 

- Hrt t h ir^i 

£ 

L J 

A j 

j. |31a t a 1 



l: 




1 


Zl 


B 


cpf 

renda 

endividame~o 



cpf idade 

sexo 

i 

i 

79389950163 

800 

2247 


i 

79389950163 

35 

F 

1 

2 

90991964723 

1532 

7200 


2 

90991964723 

21 

F 

- 

3 

25091340534 

2100 

5100 

« 

3 

25091340534 

35 

M 


4 

86737452153 

700 

3057.6 


4 

86737452153 

24 

M 


5 

35693008147 

3500 

4434 


5 

35693008147 

52 

F 


6 

65468632330 

999 

1624.8 


6 

65468632330 

22 

M 


7 

91685123465 

5100 

3088.8 


7 

91685123465 

18 

M 


8 

10673577486 

1650 

1075.2 


8 

10673577486 

42 

M 


9 

S2933070644 

3408 

1184.4 


9 

52933070644 

34 

M 


10 

89709216361 

6790 

2640 


10 

89709216361 

17 

F 


11 

17893889340 

2548 

4080 


11 

17893889340 

55 

F 


12 

31461934848 

3695 

5760 


12 

31461934848 

12 

M 


13 

98118784083 

1354 

1797.6 


13 

98118784083 

53 

F 


14 

82461824SS0 

2574 

400 


14 

82461824550 

20 

M 


IS 

64100S7SS0S 

896 

766 


15 

64100575505 

35 

F 


16 

4S95612 3114 

987 

1050 


16 

45956123114 

24 

M 


17 

26224329S99 

2200 

350 


17 

26224329599 

43 

F 


18 

1732S302734 

3400 

1750 


18 

17325302734 

61 

F 


19 

46944078123 

4800 

499.5 


19 

88171495857 

37 

M 


Figura 1.18 Janelas do editor de dados. 


O comando merge pode ser selecionado via barra de menus. Basta clicar nas seguin- 
tes op^oes: Data Combine datasets ~} Merge two datasets. Surgira uma janela, conforme 
a Figura 1.19. 



Figura 1.19 Janela de configuraqoes do comando merge. 


Inicialmente, sera necessaria a abertura do conjunto de dados que recebera os dados, 
o master. Nele serao inseridas as observa^oes que estao no conjunto de dados using. No 
exemplo, o arquivo banco 3 e o arquivo master , enquanto o arquivo banco 4 e 
o conjunto de dados using. 
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A sintaxe para o comando e dada por: 

merge 1:1 cpf using “C:\Documents and SettingsXMeus documentos\ 
arquivo banco 4.dta” 

Esse comando ira fazer com que o Stata® adicione as informa^oes do arquivo banco 
3.dta ao arquivo banco 4.dta baseado na correspondence da variavel-chave com os 
codigos identificadores das observa^oes. A variavel-chave nao pode apresentar valores 
duplicados em nenhuma das bases de dados. O Stata® criara automaticamente uma nova 
variavel denominada _merge. 

A fusao dos dois arquivos resulta na seguinte base de dados, em que as variaveis idade 
e sexo (arquivo banco 4.dta) do segundo arquivo (arquivo banco 3.dta) foram fundidas 
com as variaveis renda e endividamento do primeiro banco de dados (Figura 1.20). 


fei Data Editor (Edit) ■ [banco 

3 .dta] 





File Edit 

i-j y j 

View Data Tools 

Sica t 





1 



L 


b 


cpf 

renda 

endividame~o 

idade 

sexo 

.merge 

I 

i 

10673577486 

1650 

1075.2 

42 

M 

matched (3) 

|. 

2 

17325302734 

3400 

1750 

61 

F 

matched (3) 


3 

17893889340 

2548 

4080 

55 

F 

matched (3) 

— 

4 

25091340534 

2100 

5100 

35 

M 

matched (3) 


5 

26224329599 

2200 

350 

43 

F 

matched (3) 


6 

31461934848 

3695 

5760 

12 

M 

matched (3) 


7 

35693008147 

3500 

4434 

52 

F 

matched (3) 


8 

45956123114 

987 

1050 

24 

M 

matched (3) 


9 

46944078123 

4800 

499.5 



master only (l) 


10 

52933070644 

3408 

1184.4 

34 

M 

matched (3) 


11 

64100575505 

896 

766 

35 

F 

matched (3) 


12 

65468632330 

999 

1624.8 

22 

M 

matched (3) 


13 

79389950163 

800 

2247 

35 

F 

matched (3) 


14 

82461824550 

2574 

400 

20 

M 

matched (3) 


15 

86737452153 

700 

3057.6 

24 

M 

matched (3) 


10 

89709216361 

6790 

2640 

17 

F 

matched (3) 


17 

90991964723 

1532 

7200 

21 

F 

matched (3) 


18 

91685123465 

5100 

3088.8 

18 

M 

matched (3) 


19 

98118784083 

1354 

1797.6 

53 

F 

matched (3) 


20 

88171495857 



37 

M 

using only (2) 


Figura 1.20 Janela do editor de dados, apos o comando merge. 


Se o valor da variavel _merge e igual a 3 significa que existe uma correspondence 
entre os dois conjuntos de dados. Valores iguais a 1 ou 2 demons tram que nao houve 
combina^ao entre os dois conjuntos de dados, e que a observa^ao encontra-se apenas 
na primeira ( master ) ou na segunda (using) base de dados. Muitas vezes deseja-se manter 
apenas as observa^oes que realmente foram mescladas (e onde havia informa^oes nas 
duas bases de dados). Nesse caso, apos a fusao dos arquivos pode-se digitar: 
keep if _merge==3 

O comando keep (Sintaxe 1.13) ira manter apenas as observagoes cuja variavel _merge 
seja igual a 3, ou seja, onde houve correspondence entre as bases mescladas. As demais 
observa^oes serao eliminadas do conjunto de dados master. 
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SINTAXE1.13 Comandokeep. 

keep [varlist] [if] [in] 

Em que: 

• varlist: Caso nao se queira utilizar toda a base de dados podemos informar uma lista de 
variaveis, separando-as por espa^os em branco. 

• if: A clausula if (se) permite que o usuario estabele^a condi^oes que limitarao a quantidade 
de informagoes que sera exibida. 

• in: A clausula in (em) permite a selegao das observances de acordo com a ordem de clas- 
sificagao utilizada pela base de dados. 


O comando keep pode ser acessado pela sele^ao das seguintes op^oes na barra de 
menus: Data ~} Create or change data ~} Keep or drop observations. Aparecera uma janela, 
conforme a Figura 1.21. 



Figura 1.21 Janela de configuraqoes do comando keep. 


1.5. VARIAVEIS NO STATA® 

Quando os dados ja estao dispomveis no Stata®, alguns comandos adicionais 
sao interessantes (Figura 1.22). O comando drop possibilita que variaveis e/ou 
observa^oes sejam apagadas. Para exemplificar esse comando, utilizaremos o arquivo 

banco l.dta. 

Caso seja considerado que a variavel renda e irrelevante na analise, pode-se exclui-la 
no gerenciador de variaveis (Figura 1.23). 















Introdugao 



Create or change data 
Variables Manager 
Data utilities 


Sort 

Combine datasets 
Matrices, Mata language 
Matrices, ado language 
Other utfcies 

-T 



Figura 1.22 Acessando o gerenciador de varidveis. 



Figura 1.23 Confirmando no gerenciador de varidveis a exclusao de uma variavel. 
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O Stata® utiliza o comando drop (Sintaxe 1.14) para a exclusao de variaveis. Por exemplo: 

drop renda. 


SINTAXE 1.14 Comando drop, 

drop [varlist] [if] [in] 

Em que: 

• varlist: Caso nao se queira utilizar toda a base de dados podemos informar uma lista de 
variaveis, separando-as por espa^os em branco. 

• if: A clausula if (se) permite que o usuario estabele^a concludes que limitarao a quantidade 
de informagoes que sera exibida. 

• in: A clausula in (em) permite a selegao das observances de acordo com a ordem de clas- 
sificagao utilizada pela base de dados. 


Alem disso, observa^oes tambem podem ser excluidas pontualmente. Nesse sentido, 
caso se deseje remover a observa^ao 10 por algum motivo (tal como considera-la um 
outlier) , basta solicitar a exclusao tambem pelo comando drop, da seguinte forma: drop 
in 10/10. 

Via barra de menus, podemos acessar o comando drop, selecionando as seguintes 
op^oes: Data ~} Create or change data ~} Keep or drop observations. Aparecera uma janela, 
conforme a Figura 1.24. 



Figura 1.24 Janela de configuraqoes do comando drop. 


O comando generate (ou simplesmente gen) (Sintaxe 1.15), por sua vez, e in- 
dicado nos casos em que se deseja incluir novas variaveis, por meio de transferma^ao de 
variaveis anteriormente existentes. Por exemplo, para gerar uma nova variavel denominada 
Inendividamento que contem logaritmo natural do valor do endividamento, basta digitar 
o comando a seguir: gen Inendividamento = log(endividamento). 
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SINTAXE1.15 Comando generate. 

generate newvar = exp [if] [in] 

Em que: 

• newvar: Variavel que sera criada. 

• exp: Expressao que sera utilizada na criagao da variavel. 

• if: A clausula if (se) permite que o usuario estabele^a condinoes que limitarao a quantidade 
de informagoes que sera exibida. 

• in: A clausula in (em) permite a selegao das observances de acordo com a ordem de clas- 
sificanao utilizada pela base de dados. 


Na barra de menus, esse comando esta disponivel em: Data ~} Create or change data 
Create new variable. Surgira uma janela, conforme a Figura 1.25. 



Figura 1.25 Janela de configuraqoes do comando generate. 


Caso queira criar uma descri^ao mais detalhada das variaveis, o usuario pode inserir 
as informanoes em um campo com tal destina£ao. A adi^ao da descri^ao pode ser feita 
pelo comando label var (Sintaxe 1.16). No exemplo, deseja-se especificar na base de 
dados que a renda apresentada no banco de dados e a renda bruta familiar. Por exemplo: 

label var renda “renda familiar bruta”. 


SINTAXE 1.16 Comando label var. 

label var varname"label" 

Em que: 

• varname: Variavel que recebera o rotulo. 

• label: Rotulo atribuido a variavel. 
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Essa opgao pode ser acessada via barra de menus. Basta selecionar as seguintes op^oes: 
Data Variables Manager (ver Figura 1.26). 


Variable Properties 


Name 

renda 


Label 

RENDA 


Type 

float 

- 

Format 

%8.0g 

1 CfMte - 1 

Value Label 


V f Manage... 1 

Notes 

No notes 

1 Manage... | 

QE1 

[ Reset ] f Apply ] 


Figura 1.26 Janela de configuraqoes do comando label var. 


Para visualizar uma relagao das variaveis contidas na base de dados, pode ser utilizado 
o comando list (Sintaxe 1.17). Esse comando lista as variaveis, sendo que nao precisam ser 
todas,pois o usuario pode selecionar um subgrupo. Existem diversas formas de utiliza^ao 
do comando list com o uso de “delimitadores”: if e in. 


SINTAXE 1.17 Comando list, 

list [varlist] [if] [in] 

Em que: 

• varlist: Caso nao se queira editar toda a base de dados podemos informar uma lista de 
variaveis, separando-as por espa^os em branco. 

• if: A clausula if (se) permite que o usuario estabele^a condigCes que limitarao a quantidade 
de informa£oes que sera exibida. 

• in: A clausula in (em) permite a sele<;ao das observances de acordo com a ordem de clas- 
sifica^ao utilizada pela base de dados. 


1.6. COMANDOSEPROGRAMAS NO STATA® 

O do-file e uma das ferramentas mais poderosas do Stata® pela facilidade que o 
mesmo gera para quern utiliza o programa. No exemplo a seguir (Figura 1.27), inicial- 
mente sera aberto arquivo de dados do Stata®; pediremos para que seja: (i) computada a 
estatistica descritiva de algumas variaveis; (ii) gerado o log de uma variavel; (iii) calculada 
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Stata/SE 12.0 - C:\Bases de dadosVbanco l.dta - [Results] 


FiteJ 

Edit Data 

Graphics Statistics 

& 

Open... 

Ctrl+O 

y 

Save 

Ctrl+S 


Save As... 

Ctrl+SWft+S 


View... 




Filename... 



Change Working Directory... 


Log 

► 


Import 

► 


Export 

> 

(A 

Print 

► 


Example Datasets... 


Recent Datasets ► 


Exit 



3 3 □ 


Do-file Editor - Untitled.do* 


File Edit Tools View 


j jiam & a -) -± *♦ .4 ^ £ m 


Untitled.do* 

▼ X 


1 sum idade renda endividaroento 

2 gen lnendividaroento = log(endividaroento) 

3 reg lnendividaroento idade renda 

4 predict res, res 

5 graph twoway scatter res lnendividaroento 

6 save "C:\banco l.dta", replace 


Figura 1.27 Acessando o do-file. 


uma regressao; (iv) obtidos os residuos do modelo e seu grafico; e (v) salvo novamente 
o arquivo de dados. Todos os do-files podem ser salvos e armazenados, facilitando sua 
utiliza^ao futura. 

Para se trabalhar com o do-file, deve-se digitar, na janela de comandos, doedit 
(Sintaxe 1.18). Os comandos a seguir devem ser digitados dentro do do-file. Nesse caso, 
basta copiar e colar para dentro da janela do do-file. Todos os comandos precedidos de 
asterisco (*) sao considerados comentarios. 


SINTAXE 1.18 Comando doedit. 

doedit [filename] 

Em que: 

• filename: Caso queira visualizar ou editar um arquivo de comandos, basta informar o nome 
do arquivo. Caso contrario, nada sendo informado o editor sera aberto com um arquivo 


novo. 















Estatfstica Descritiva,Tabelas 
e Graficos 


A Estatistica pode ser segregada em dois principals ramos: (i) estatistica inferencial 
e (ii) estatistica descritiva. A estatistica inferencial (ou estatistica indutiva) busca inferir 
conclusoes importantes acerca da popula^ao subjacente, a partir de uma amostra re- 
presentativa. Por outro lado, a estatistica descritiva procura somente descrever e avaliar 
determinado grupo, sem tirar quaisquer conclusoes ou inferences sobre um grupo maior. 

Neste capitulo apresentaremos os principals comandos para a obten^ao de estatisticas 
descritivas sobre um determinado conjunto de dados, assim como utilizaremos o Stata® 
para a cria^ao de tabelas e graficos. 

Usaremos em nossos exemplos a base de dados auto.dta, que comumente e instalada no 
mesmo diretorio que o Stata®.A referida base de dados possui 74 observa^oes sobre automoveis 
referentes ao ano de 1978. E composta pelas variaveis contidas no Quadro 2.1. 


Quadro 2.1 Variaveis que compoem a base de dados auto.dta 


Variavel 

Descrigao 

Tipo 

make 

Marca e modelo 

Qualitativa 

price 

Prego 

Quantitativa 

mpg 

Milhagem 

Quantitativa 

rep 7 8 

Numero de reparos no ano 
de 1978 

Quantitativa 

headroom 

Potencia dos alto-falantes 

Quantitativa 

trunk 

Area do porta-malas 

Quantitativa 

weight 

Peso 

Quantitativa 

length 

Comprimento 

Quantitativa 

turn 

Circunferencia 

Quantitativa 

displacement 

Deslocamento 

Quantitativa 

gear_ratio 

Razao da engrenagem 
do cambio 

Quantitativa 

foreign 

Origem (domestico 
ou estrangeiro) 

Qualitativa 


O primeiro passo que daremos sera acionar o aplicativo Stata® e, apos a sua inicia- 
liza^ao, iremos solicitar a abertura da base de dados auto.dta, utilizando o comando 
sysuse (Sintaxe 2.1). 
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SINTAXE2.1 Comando sysuse. 

sysuse "filename" [, clear] 

Em que: 

• filename: Nome do arquivo que sera aberto. Se no nome do arquivo existir algum espago 
em branco e necessario utilizar aspas. 

• clear: A opgao clear somente e necessaria quando ja tiver sido aberta outra base de dados 
e desejamos simplesmente que o Stata® ignore a base aberta e passe a utilizar a base que 
estamos informando no comando. 


Na janela de comandos digitaremos o seguinte: 

sysuse auto 

< > 

RESULTADOS 2.1 Abertura do arquivo auto.dta. 

I . sysuse auto 

(1978 Automobile Data) 

_2 


2.1. anAlise exploratoria de dados 

Inicialmente buscaremos descrever os comandos que nos permitirao conhecer melhor 
uma base de dados. Esses comandos poderao ser utilizados para a descri^ao de uma base 
de dados por inteiro ou de algumas variaveis. 

Para mostrar o sumario do banco de dados, com nome, tipo e rotulo das variaveis, 
vamos utilizar o comando describe (Sintaxe 2.2). 


SINTAXE2.2 Comando describe, 

describe [varlist] [if] [in] 

Em que: 

• varlist: Caso nao se queira visualizar toda a base de dados podemos informar uma lista de 
variaveis, separando-as por espa^os em branco. 

• if: A clausula if (se) permite que o usuario estabele^a condigoes que limitarao a quantidade 
de informagoes que sera exibida. 

• in: A clausula in (em) permite a sele^ao das observances de acordo com a ordem de clas- 
sificanao utilizada pela base de dados. 
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No nosso exemplo, basta digitarmos o seguinte comando: 

describe 


f > 

RESULTADOS 2.2 Descrevendo o arquivo auto.dta. 


. describe 

Contains data 

obs: 

vars: 

size: 

from C: 

74 

12 

3,182 

\Program 

Files\Statal2\ado\base/a/auto.dta 

1978 Automobile Data 

13 Apr 2011 17:45 
(_dta has notes) 


storage 

display 

value 


variable name 

type 

format 

label 

variable label 

make 

strl8 

%-18s 


Make and Model 

price 

int 

%8.Ogc 


Price 

mpg 

int 

%8.0g 


Mileage (mpg) 

rep78 

int 

%8. Og 


Repair Record 1978 

headroom 

float 

%6. If 


Headroom (in.) 

trunk 

int 

%8. Og 


Trunk space (cu. ft.) 

weight 

int 

%8.Ogc 


Weight (lbs.) 

length 

int 

%8. Og 


Length (in.) 

turn 

int 

%8. Og 


Turn Circle (ft.) 

displacement 

int 

%8. Og 


Displacement (cu. in.) 

gear_ratio 

float 

%6.2f 


Gear Ratio 

foreign 

byte 

%8. Og 

origin 

Car type 

Sorted by: foreign 


_ / 


Podemos, tambem, acionar o comando describe utilizando a barra de menus, basta 
clicarmos nas seguintes opcoes: Data Describe data Describe data in memory. Sera 
exibida uma janela, conforme a Figura 2.1. 



Figura 2.1 Janela de configuraqoes do comando describe. 

Para obtermos um resultado identico ao originado pelo comando que digitamos, 
basta deixarmos o campo Variables em branco e clicarmos no botao OK. O Stata® 
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possibilita que os usuarios escolham algumas op^oes em rela^ao ao resultado que sera 
entao fornecido. 

Uma descri^ao mais detalhada das variaveis que compoem o banco de dados pode 
ser obtida por intermedio do comando codebook (Sintaxe 2.3). 

SINTAXE2.3 Comando codebook, 

codebook [varlist] [if] [in] 

Em que: 

• varlist: Caso nao se queira visualizar toda a base de dados podemos informar uma lista de 
variaveis, separando-as por espa^os em branco. 

• if: A clausula if (se) permite que o usuario estabele^a condigaes que limitarao a quantidade 
de informagaes que sera exibida. 

• in: A clausula in (em) permite a sele<;ao das observances de acordo com a ordem de clas- 
sifica^ao utilizada pela base de dados. 


Imaginemos que estamos interessados em obter mais informa^oes sobre as variaveis 
price e weight. Para isso, digitaremos o seguinte comando: 

codebook price weight 


f > 

RESULTADOS 2.3 Obtendo informa^oes sobre algumas variaveis. 


. codebook price weight 

price 





Price 

type: 

numeric (int) 





range: 
unique values: 

[3291,15906] 

74 


units: 1 

missing .: 0/74 



mean: 

std. dev: 

6165.26 

2949.5 





percentiles: 

10% 

3895 

25% 

4195 

50% 75% 

5006.5 6342 

90% 

11385 


weight 
(lbs.) 





Weight 

type: 

numeric (int) 





range: 
unique values: 

[1760,4840] 

64 


units: 10 

missing .: 0/74 



mean: 

std. dev: 

3019.46 

777.194 





percentiles: 

10% 

2020 

25% 

2240 

50% 75% 

3190 3600 

90% 

4060 



_ / 
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De modo similar ao comando anterior, podemos acionar o comando codebook 
utilizando a barra de menus; basta clicarmos nas seguintes op^oes: Data Des¬ 
cribe data Describe data contents (codebook). Sera exibida uma janela, conforme a 
Figura 2.2. 



Figura 2.2 Janela de configurates do comando codebook. 


Outra forma de mostrar informa^oes sobre as variaveis da base de dados, com ilus- 
tragao de quantidade de numeros negativos, positivos e em branco (missing values), alem 
de um pequeno grafico de ramos e folhas (com distribui^ao da variavel entre os seus 
valores), e com o comando inspect (Sintaxe 2.4). 


SINTAXE2.4 Comando inspect, 

inspect [varlist] [if] [in] 

Em que: 

• varlist: Caso nao se queira visualizar toda a base de dados podemos informar uma lista de 
variaveis, separando-as por espa^os em branco. 

• if: A clausula if (se) permite que o usuario estabele^a condi^oes de limitar a quantidade 
de informa^oes que sera exibida. 

• in: A clausula in (em) permite a sele^ao das observances de acordo com a ordem de clas- 
sifica^ao utilizada pela base de dados. 
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Verificaremos agora as mesmas variaveis do exemplo anterior ,price e weight. Para isso, 
digitaremos o seguinte comando: 

inspect price weight 


f > 

RESULTADOS 2.4 Inspecionando algumas variaveis. 


. inspect price weight 




price: 

Price 


Number of Observations 




Total 

Integers Nonintegers 

1 # 


Negative 

- 

- 

# 


Zero 

- 

- 

# 


Positive 

74 

74 

1 # 





# 


Total 

74 

74 

1 # 

# 

Missing 

- 


3291 

15906 


74 


(74 

unique values) 




weight 

:: Weight (lbs.) 


Number of Observations 




Total 

Integers Nonintegers 

1 # 

# 

Negative 

- 

- 

1 # 

# 

Zero 

- 

- 

1 # 

# # # 

Positive 

74 

74 

1 # 

# # # 




# 

# # # 

Total 

74 

74 

1 # 

# # # # 

Missing 

- 


1760 

4840 


74 


(64 

unique values) 





_ / 


Se desejarmos, podemos acionar o comando inspect utilizando a barra de menus; 
basta clicarmos nas seguintes opcoes: Data Describe data Inspect variables. Sera exibida 
uma janela, conforme a Figura 2.3. 



Figura 2.3 Janela de configuraqoes do comando inspect. 
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Apos verificamos os comandos relacionados com a obten^ao de informa^oes sobre 
uma base de dados ou de algumas variaveis, passaremos aos comandos que nos permitirao 
visualizar os dados contidos na base utilizada. 

Para mostrarmos os dados da base na tela de resultados do Stata®, utilize o comando 
list (Sintaxe 2.5). 


SINTAXE 2.5 Comando list, 

list [varlist] [if] [in] 

Em que: 

• varlist: Caso nao se queira visualizar toda a base de dados podemos informar uma lista de 
variaveis, separando-as por espa^os em branco. 

• if: A clausula if (se) permite que o usuario estabelega condi^oes que limitarao a quantidade 
de informagoes que sera exibida. 

• in: A clausula in (em) permite a selegao das observances de acordo com a ordem de clas- 
sificagao utilizada pela base de dados. 


Para visualizar as 10 primeiras observa^oes das variaveis price e weight, utilizaremos 
o seguinte comando: 

list price weight in 1/10 


r 


RESULTADOS 2.5 Listando algumas observagoes. 




. list price weight in 1/10 


1 

price 

weight 

1 . 

4,099 

2,930 

2. 

4,749 

3,350 

3. 

3,799 

2,640 

4. 

4,816 

3,250 

5. 

7,827 

4,080 

6. 

5,788 

3,670 

7. 

4,453 

2,230 

8. 

5,189 

3,280 

9. 

10,372 

3,880 

10. 

j 

4,082 

3,400 


v. 
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Caso desejarmos acionar o comando list, por meio da barra de menus, precisaremos 
clicar nas seguintes op^oes: Data Describe data List data. Aparecera uma janela, 
conforme a Figura 2.4. 



Figura 2.4 Janela de configuraqoes do comando list. 

Para mostrar a base de dados em uma tela separada, utilize o comando browse 
(Sintaxe 2.6). 


SINTAXE2.6 Comando browse, 

browse [varlist] [if] [in] 

Em que: 

• varlist: Caso nao se queira visualizar toda a base de dados podemos informar uma lista de 
variaveis, separando-as por espa^os em branco. 

• if: A clausula if (se) permite que o usuario estabele^a condinoes que limitarao a quantidade 
de informagoes que sera exibida. 

• in: A clausula in (em) permite a sele^ao das observances de acordo com a ordem de clas- 
sificanao utilizada pela base de dados. 
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Tendo como referenda o exemplo anterior, digitaremos o seguinte comando: 

browse price weight in 1/10 

Na tela de resultados aparecera o seguinte: 




RESULTADOS 2.6 Exibindo algumas observances 


em uma janela propria. 


|| . browse price weight in 1/10 | 





Surgira, entao, uma janela, conforme a Figura 2.5. 

Para visualizar todos os dados, podemos utilizar apenas o comando browse, sem 
op^oes e clausulas. Isso tambem podera ser feito utilizando a barra de menus. Basta 
clicarmos nas seguintes op^oes: Data Data Editor Data Editor (Browse). 



Figura 2.5 Janela de visualizagao de dados - Comando browse. 
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Caso desejassemos contar o numero de observa^oes, utilizando condigoes defmidas 
com algumas das variaveis presentes na base de dados, poderiamos utilizar o comando 
count (Sintaxe 2.7). 


SINTAXE2.7 Comando count, 

count [if] [in] 

Em que: 

• if: A clausula if (se) permite que o usuario estabele^a condi^oes que limitarao a quantidade 
de informa^oes que sera exibida. 

• in: A clausula in (em) permite a sele<;ao das observances de acordo com a ordem de clas- 
sifica^ao utilizada pela base de dados. 


Por exemplo, suponha que estamos interessados em contar apenas a quantidade de 
carros domesticos (na variavel foreign o carro domestico foi codificado com o numero 
0) e com pre^os entre 5 mil e 10 mil dolares. Dessa forma, basta especificarmos essas 
caracteristicas no comando: 

count if foreign^ =0& (price> =5000 & price< =10000) 




\ 

1 

RESULTADOS 2.7 Contando observances na base de dados. 

■ 


1. count if foreign==0 & (price>=5000 & price<=10000) 1 



1 15 1 




1 

-J 


Utilizando os comandos existentes na barra de menus, podemos acionar o 
comando count da seguinte forma, bastando clicar nas seguintes op^oes: Data 
Data utilities Count observations satisfying condition. Surgira uma janela, conforme 
a Figura 2.6. 

Para obtermos um resultado identico ao originado pelo comando que digitamos, 
basta digitarmos as condi^oes no campo If. Caso nao informemos nenhuma condi^ao, 
o Stata® informara o total de observa^oes existentes na base de dados. 
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Figura 2.6 Janela de configuraqoes do comando count. 


Passaremos agora para os comandos relacionados com a obten^ao de estatis- 
ticas descritivas. De um modo geral, as estatisticas descritivas estao segregadas em 
quatro grupos: (i) medidas de tendencia; (ii) medidas de dispersao; (iii) assimetria 
e (iv) curtose. 

O comando summarize (Sintaxe 2.8) apresenta estatisticas descritivas sim¬ 
ples, tais como medianas, medias e desvios-padrao das variaveis avaliadas. Um su- 
mario simples de estatisticas (media, desvio-padrao, valores minimos e maximos e 
o numero de observa^oes) para as variaveis listadas pode ser obtido pelo comando 
geral. 


SINTAXE 2.8 Comando summarize, 

summarize [varlist] [if] [in] [,detail] 

Em que: 

• varlist: Caso nao se queira visualizar toda a base de dados podemos informar uma lista de 
variaveis, separando-as por espa^os em branco. 

• if: A clausula if (se) permite que o usuario estabele^a condi^oes que limitarao a quantidade 
de informagoes que sera exibida. 

• in: A clausula in (em) permite a sele^ao das observances de acordo com a ordem de 
classificanao utilizada pela base de dados. 

• detail: Exibe estatisticas descritivas adicionais. 
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Para visualizarmos um sumario com algumas estatisticas descritivas, basta digitarmos 
o seguinte comando: 

summarize 


< > 

RESULTADOS 2.8 Obtendo estatisticas descritivas da base de dados. 


. summarize 


Variable 

Obs 

Mean 

Std. Dev. 

Min 

Max 

make 

0 





price 

74 

6165.257 

2949.496 

3291 

15906 

mpg 

74 

21.2973 

5.785503 

12 

41 

rep78 

69 

3.405797 

.9899323 

1 

5 

headroom 

74 

2.993243 

.8459948 

1.5 

5 

trunk 

74 

13.75676 

4.277404 

5 

23 

weight 

74 

3019.459 

777.1936 

1760 

4840 

length 

74 

187.9324 

22.26634 

142 

233 

turn 

74 

39.64865 

4.399354 

31 

51 

displacement 

74 

197.2973 

91.83722 

79 

425 

gear ratio 

74 

3.014865 

.4562871 

2.19 

3.89 

foreign 

74 

.2972973 

.4601885 

0 

1 


_ / 


Conforme discutido anteriormente, o Stata® ira apresentar algumas estatisticas des¬ 
critivas, sao elas: (i) numero de observa^oes (Obs), (ii) media (Mean), (iii) desvio-padrao 
(Std. Dev.), (iv) minimo (Min) e (v) maximo (Max). 

Esse comando pode ser acessado por intermedio da barra de menus. Basta que 
acionemos as seguintes op^oes: Statistics Summaries, tables, and tests ~} Summary and 
descriptive statistics ~} Summary statistics (Figura 2.7). 



Figura 2.7 Janela de configuraqoes do comando summarize. 
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Caso se deseje que na tabela sejam incluidas informa^oes adicionais tais como per¬ 
cents, variancia, assimetria e curtose, a op^ao detail (precedida por uma virgula) pode 
ser incluida no comando summarize. 

O Stata® permite que alguns comandos sejam utilizados em sua forma reduzida. Em 
rela^ao ao comando summarize, o mesmo pode ser acionado apenas digitando a sua 
forma reduzida sum. 

Para visualizarmos apenas algumas variaveis (como, por exemplo price e weight) e es- 
tatisticas descritivas adicionais, utilizaremos o seguinte comando: 

sum price weight, detail 


/-\ 

RESULTADOS 2.9 Obtendo estatfsticas descritivas de algumas variaveis. 


. sum 

price weight. 

detail 

Price 




Percentiles 

Smallest 



1% 

3291 

3291 



5% 

3748 

3299 



10% 

3895 

3667 

Obs 

74 

25% 

4195 

3748 

Sum of Wgt. 

74 

50% 

5006.5 


Mean 

6165.257 



Largest 

Std. Dev. 

2949.496 

75% 

6342 

13466 



90% 

11385 

13594 

Variance 

8699526 

95% 

13466 

14500 

Skewness 

1.653434 

99% 

15906 

15906 

Kurtosis 

4.819188 



Weight (lbs.) 




Percentiles 

Smallest 



1% 

1760 

1760 



5% 

1830 

1800 



10% 

2020 

1800 

Obs 

74 

25% 

2240 

1830 

Sum of Wgt. 

74 

50% 

3190 


Mean 

3019.459 



Largest 

Std. Dev. 

777.1936 

75% 

3600 

4290 



90% 

4060 

4330 

Variance 

604029.8 

95% 

4290 

4720 

Skewness 

.1481164 

99% 

4840 

4840 

Kurtosis 

2.118403 


V_/ 


O Stata® ira apresentar as seguintes estatisticas descritivas: (i) numero de observa^oes 
(Obs), (ii) media (Mean), (iii) desvio-padrao (Std. Dev.), (iv) percentis (Percentiles), (v) 
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mediana (Percentiles 50%), (vi) variancia (Variance), (vii) assimetria (Skewness) e (viii) 
curtose (Kurtosis). 

Caso seja utilizada a barra de menus para se acessar o comando summarize, para 
obter as estatisticas descritivas adicionais o usuario precisara selecionar a op^ao 4 Display 
additional statistics ’, na janela de configura^ao do comando. 

O Stata® permite que especifiquemos somente as estatisticas descritivas de interes- 
se para serem exibidas na tabela. O comando para obter tal informa^ao e o tabstat 
(Sintaxe 2.9). 


SINTAXE2.9 Comando tabstat. 

tabstat varlist [if] [in] [, stats ()] 

Em que: 

• varlist: Caso nao se queira visualizar toda a base de dados podemos informar uma lista de 
variaveis, separando-as por espa^os em branco. 

• if: A clausula if (se) permite que o usuario estabele^a condi^oes que limitarao a quantidade 
de informa£oes que sera exibida. 

• in: A clausula in (em) permite a sele^ao das observances de acordo com a ordem de clas- 
sifica^ao utilizada pela base de dados. 

• stats: Rela<;ao de estatisticas descritivas (informadas entre parenteses) que serao exibidas 
no resultado. 


Suponha que estamos interessados nas seguintes estatisticas descritivas da variavel price: 
(i) media (mean), (ii) desvio-padrao (sd), (iii) assimetria (skewness), (iv) curtose (kurtosis), 
(v) numero de observa^oes (n), (vi) minimo (min) e (vii) maximo (max). Para isso, basta 
informarmos na janela de comandos o seguinte: 

tabstat price, stats (mean sd skewness kurtosis n min max) 


< > 

RESULTADOS 2.10 Obtendo estatfsticas descritivas de uma variavel. 


. tabstat price, stats (mean sd skewness kurtosis n min max) 

variable | mean sd skewness kurtosis N min max 

--+-- - - ----- 

price | 6165.257 2949.496 1.653434 4.819188 74 3291 15906 


_ / 
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Figura 2.8 Janela de configuraqoes do comando tabstat. 


O comando tabstat tambem esta acessivel via barra de menus. Basta selecionarmos 
as seguintes op^oes: Statistics ~} Summaries, tables, and tests ~} Tables ~} Table of summary 
statistics (tabstat). Aparecera uma janela, conforme a Figura 2.8. 


2.2. TESTES DE NORMALIDADE 

Os testes de normalidade sao bastante utilizados nos procedimentos estatisticos, muitas 
vezes para auxiliar o usuario na escolha do tipo de teste a ser utilizado ou para validar 
algum pressuposto exigido pela tecnica escolhida. 

Dizemos que uma variavel aleatoria (continua) X apresenta distribui^ao normal, as 
vezes chamada distribui^ao gaussiana, quando sua fun^ao de densidade tern a seguinte 
forma: 


-(x-A0 

f (x) —- -j=e lal ,-°°<x<°° [Equaqao 2.1] 

(7V2tt 


Em que fi e <T 2 , conhecidos como parametros da distribui^ao, sao, respectivamente, 
a media e a variancia da distribui^ao. A distribui^ao normal e simetrica e mesocurtica. 

Existem duas formas de se testar a normalidade. A partir dos metodos graficos 
e possivel visualizar as distribui^oes de variaveis aleatorias ou as diferen^as entre 
uma distribui^ao empirica e uma distribui^ao teorica (por exemplo, a distribuigao 
normal padrao). Metodos numericos apresentam estatisticas, tais como assimetria 
e curtose, ou realizam testes estatisticos especificos. Enquanto os metodos graficos 
sao intuitivos, os metodos numericos fornecem uma maneira mais objetiva para se 
examinar a normalidade. 

No Stata®, sao necessarias utiliza^oes de comandos individuais para obter estatisticas 
especificas ou esbo^ar graficos. Esta se^ao contrasta variaveis normalmente distribuidas 
ou nao, usando metodos graficos e numericos. 
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O histograma e o metodo grafico mais amplamente utilizado. No Stata® podemos 
solicitar a cria^ao de um histograma atraves do comando histogram (Sintaxe 2.10). 
Alem disso, podemos adicionar op^oes, como o esbo^o da curva normal da variavel 
desejada (op^ao norm). 


SINTAXE 2.10 Comando histogram, 

histogram varname [, norm] [, discrete] 

Em que: 

• varname: Nome da variavel. 

• norm: Caso se deseje visualizar o grafico de densidade da fun^ao normal. 

• discrete: Caso a variavel nao seja continua, ou seja discreta, deve utilizar esta op^ao. 


Vamos visualizar os histogramas das variaveis price e length. Para tanto, basta digitarmos 
os seguintes comandos, um de cada vez: 

histogram price, norm 
histogram length, norm 


< > 

RESULTADOS 2.11 Gerando os histogramas das variaveis. 


. histogram price, norm 

(bin=8, start=3291, width=1576.875) 

. histogram length, norm 
(bin=8, start=142, width=ll.375) 


_ J 


Como no Stata® os graficos sao exibidos em uma unica janela, denominada 
Graph , e necessario que o usuario gere cada grafico de uma vez e salve o grafico 
gerado diretamente em um arquivo ou copiando para a memoria da area de trans- 
ferencia. 

A partir da analise grafica, verificamos que o histograma da variavel length esta mais 
proximo do formato da fun^ao da distribui^ao normal do que o histograma da variavel 
price (Figura 2.9). 
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O 



Price 



° -r 1 -- 1 —-— i-- \ -- r --r- 

140 160 180 200 220 240 

Length (in.) 

Figura 2.9 Histogramas das varidveis price e length. 


Utilizando-se a barra de menus, podemos encontrar o comando histogram, sele- 
cionando as seguintes op^oes: Graphics ~} Histogram. Sera exibida uma janela, conforme 
a Figura 2.10. 
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Figura 2.10 Janela de configuragdes do comando histogram. 


O comando graph box (Sintaxe 2.11) esbo^a um box plot. Nesse grafico, a 
parte sombreada representa o 25° percentil (1° quartil), a mediana (2° quartil) e o 
75° percentil (3° quartil), simetricamente dispostos. O grafico box plot pode ser 
utilizado para a detec^ao da normalidade, pois, conforme vimos anteriormente, a 
distribui^ao normal e simetrica. 


SINTAXE 2.11 Comando graph box. 

graph box yvars 

Em que: 

• yvars: Lista de variaveis, separadas por espa^os em branco. 


Agora, vamos visualizar os graficos box plot para as variaveis price e length (Figura 2.11). 
Dessa forma, precisamos informar os seguintes comandos, um de cada vez: 


































Length (in.) Price 

140 160 180 200 220 240 0 5,000 10,000 15,000 
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Figura 2.11 Box plot das variaveis price e length. 
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graph box price 
graph box length 


— 

RESULTADOS 2.12 Gerando os graficos box plot das variaveis. 




. graph box price 
. graph box length 




J 


A partir da analise grafica, verificamos que o box pot da variavel length demonstra 
que essa variavel possui uma distribui^ao simetrica, enquanto a variavel price possui uma 
distribui^ao assimetrica, pois ha bastantes valores atipicos (outliers). 

Por meio da barra de menus, podemos encontrar o comando graph box, selecio- 
nando as seguintes op^oes: Graphics ~} Box plot. Sera exibida uma janela, conforme a 
Figura 2.12. 



Figura 2.12 Janela de configurates do comando graph box. 


A distribuigao da variavel em analise pode ser comparada com a fun^ao de dis- 
tribuigao teorica da normal. O comando pnorm (Sintaxe 2.12) produz um grafico 
padronizado P-P plot. No Stata®, o P-P plot apresenta a distribui^ao cumulativa de uma 
variavel empirica no eixo x e a distribui^ao teorica da normal no eixo y. 
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SINTAXE 2.12 Comando pnorm. 

pnorm varname 

Em que: 

• varname: Nome da variavel. 


Seguindo com o nosso exemplo, vamos solicitar o grafico P-P plot para as variaveis 
price e length (Figura 2.13). Novamente,lembramos que os comandos a seguir devem ser 
informados um de cada vez. 



Figura 2.13 P-P plot das variaveis price e length. 


—i— 

0.75 


—r 
1.00 
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pnorm price 
pnorm length 




\ 

1 

RESULTADOS 2.13 Gerando os graficos P-P plot das variaveis. 


1 . pnorm price | 



. pnorm length 




J 


Analisando-se os graficos P-P plot percebemos que o grafico relativo a variavel 
price apresenta uma forma sinuosa, desviando com muita frequencia da linha estimada. 
Enquanto, em rela^ao ao grafico da variavel length , verificamos que quase nao existem 
desvios em comparaQo com a linha estimada, demonstrando, mais uma vez, que a variavel 
estaria mais proxima de possuir uma distribui^ao normal. 

Por intermedio da barra de menus, podemos acessar o comando pnorm, clicando 
nas seguintes op^oes: Statistics ~} Summaries, tables, and tests ~} Distributional plots and tests 
Normal probability plot, standardized. Na Figura 2.14 apresentamos a janela que surgira. 



Figura 2.14 Janela de configuraqoes do comando pnorm. 


Com fun^ao similar, o grafico Q-Q plot compara os quantis de uma distribui^ao de 
dados com os quantis da distribui^ao teorica da normal. O comando qnorm produz 
um grafico Q-Q plot. O grafico Q-Q plot apresenta um padrao similar ao grafico P-P 
plot. No Stata® e acionado a partir do comando qnorm (Sintaxe 2.13). 
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SINTAXE2.13 Comando qnorm. 

qnorm varname 

Em que: 

• varname: Nome da variavel. 


Dessa vez, vamos solicitar o grafico Q-Q plot para as variaveis price e length 
(Figura 2.15). Relembramos que os comandos a seguir devem ser informados um 
de cada vez. 



Figura 2.15 Q-Q plot das variaveis price e length. 
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qnorm price 
qnorm length 




\ 

1 

RESULTADOS 2.14 Gerando os graficos Q-Q plot das variaveis. 


1 . qnorm price I 



| . qnorm length | 


L_ 


J 


De maneira similar ao que ocorreu nos graficos P-P plot, a analise dos graficos Q-Q 
plot nos permite identificar que a distribui^ao da variavel length e mais ajustada a dis- 
tribui^ao teorica de uma variavel normal do que a distribui^ao da variavel price. 

Por intermedio da barra de menus, podemos acessar o comando qnorm, clicando 
nas seguintes op^oes: Statistics ~} Summaries, tables, and tests ~} Distributional plots and tests 
Normal quantile plot. Na Figura 2.16 apresentamos a janela que surgira. 



Figura 2.16 Janela de configuraqoes do comando qnorm. 

Passaremos agora aos testes estatisticos para a detec^ao da normalidade. Iremos des- 
crever e demonstrar os principals testes contidos no Stata®, porem, nao nos preocupare- 
mos, nesse momento, com a analise dos resultados, pois a veremos mais detalhadamente 
na se^ao 2.5. 

Para verificarmos a normalidade de uma so variavel (normalidade univariada), o 
Stata® possui quatro metodos de teste: (i) Shapiro-Wilk, (ii) Shapiro-Francia; (iii) teste 
de assimetria e curtose (Skewness-Kurtosis test) e (iv) Kolmogorov-Smirnov. 

Para executarmos o teste Shapiro-Wilk que, segundo Maroco (2011), e mais indicado 
para pequenas amostras (aquelas com ate 30 observa^oes), solicitamos o comando swilk 
(Sintaxe 2.14). 
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SINTAXE2.14 Comando swilk. 

swilkvarlist 

Em que: 

• varlist: Lista de variaveis, separadas por espa^os em branco. 


Iremos solicitar ao Stata® que elabore o teste Shapiro-Wilk (apenas para fins didaticos, 
sem nos preocuparmos com a dimensao da amostra), para as variaveis price e length 
(Resultados 2.15). Assim, devemos digitar: 

swilk price length 


( -\ 

RESULTADOS 2.15 Teste Shapiro-Wilk. 


. swilk price length 

Shapiro-Wilk W test for normal data 


Variable | 

Obs 

W 

V 

z 

Prob>z 

price 

74 

0.76696 

15.008 

5.909 

0.00000 

length 

74 

0.97165 

1.825 

1.313 

0.09461 


_ / 


O teste Shapiro-Wilk podera ser acionado por meio da barra de menus. Para tanto, 
acionaremos as seguintes op^oes: Statistics ~} Summaries, tables, and tests ~} Distributional 
plots and tests ~} Shapiro-Wilk normality test. Surgira ajanela da Figura 2.17. 



Figura 2.17 Janela de configuraqoes do comando swilk. 
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Shapiro e Francia (1972) realizaram alteragoes no teste Shapiro-Wilk para que o mes- 
mo pudesse ser utilizado com grandes amostras, dando origem ao teste Shapiro-Francia. 
No Stata®, esse teste e acionado pelo comando sfrancia (Sintaxe 2.15). 


SINTAXE 2.15 Comando sfrancia. 

sfrancia varlist 

Em que: 

• varlist: Lista de variaveis, separadas por espa^os em branco. 


Agora, solicitaremos que seja feito o teste Shapiro-Francia, para as variaveis price e 
length (Resultados 2.16). 

sfrancia price length 


f > 

RESULTADOS 2.16 Teste Shapiro-Francia. 


. sfrancia price 

length 





Shapiro-Francia W 1 

test for 

normal 

data 

Variable | 

Obs W' 

V 1 

z 

Prob>z 

price 

74 0.76750 

16.549 

5.440 

0.00001 I 

length j 

74 0.97723 

1.621 

0.936 

0.17468 


V_/ 


Assim como ocorreu com o teste Shapiro-Wilk, o teste Shapiro-Francia podera 
ser acionado por meio da barra de menus. Para tanto, acionaremos as seguintes op^oes: 
Statistics Summaries, tables , and tests Distributional plots and tests Shapiro-Francia 
normality test. Surgira a janela da Figura 2.18. 



Figura 2.18 Janela de configuraqoes do comando sfrancia. 
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O comando sktest (Sintaxe 2.16) conduz ao teste de assimetria e curtose, que e 
conceitualmente similar ao teste de Jarque-Bera. 


SINTAXE 2.16 Comando sktest. 

sktest varlist [, noadjust] 

Em que: 

• varlist: Lista de variaveis, separadas por espa^os em branco. 

• noadjust: Suprime o ajustamento empirico realizado por Royston (1991). 

Executaremos o teste de assimetria e curtose, para as variaveis price e length 
(Resultados 2.17). 

sktest price length, noadjust 


-\ 

RESULTADOS 2.17 Teste de assimetria e curtose. 


. sktest price length, noadjust 

SkewneBs/Kurtosis tests for Normality 

- joint 


Variable | 

Obs 

Pr(Skewness) 

Pr(KurtoBis) 

chi2(2) 

Prob>chi2 

price | 

74 

0.0000 

0.0127 

28.81 

0.0000 

length | 

74 

0.8762 

0.0053 

7.80 

0.0202 


_ / 


Tambem esse comando podera ser acionado por meio da barra de menus. Basta 
selecionarmos as seguintes op^oes: Statistics ~} Summaries, tables, and tests ~} Distributional 
plots and tests ~} Skewness and kurtosis normality test. Sera exibida a janela da Figura 2.19. 



Figura 2.19 Janela de configuraqoes do comando sktest. 

O ultimo teste para a detecgao da normalidade univariada, disponivel no Stata®, e o 
Kolmogorov-Smirnov. De acordo com Maroco (2011), o referido teste e indicado para 
grandes amostras. O teste Kolmogorov-Smirnov somente esta disponivel por meio do 
comando ksmirnov (Sintaxe 2.17). 
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SINTAXE 2.17 Comando ksmirnov. 

ksmirnov varname = r»ormaI((varname-r(mean))/r(sd)) 

Em que: 

• varname: Nome da variavel. 


O comando ksmirnov, devido a maneira como o mesmo foi construido no Stata®, 
exige que o comando summarize seja executado antes do referido comando. 

Agora, iremos realizar o teste Kolmogorov-Smirnov para as variaveis price e length , 
utilizando os seguintes comandos: 

summarize price 

ksmirnov price = normal((price-r(mean))/r(sd)) 
summarize length 

ksmirnov length = normal((length-r(mean))/r(sd)) 


f > 

RESULTADOS 2.18 Teste Kolmogorov-Smirnov. 


. summarize price 






Variable | 

Obs 

Mean 

Std. Dev. 

Min 

Max 

price | 

74 

6165.257 

2949.496 

3291 

15906 

. ksmirnov price - 

normal((price-r(mean))/r(sd)) 



One-sample Kolmogorov-Smirnov test against theoretical 
normal((price-r(mean))/r(sd)) 

distribution 

Smaller group 

D 

P-value 

Corrected 



price: 

Cumulative: 
Combined K-S: 

0.2329 

-0.1715 

0.2329 

0.000 

0.013 

0.001 

0.000 



. summarize length 






Variable | 

Obs 

Mean 

Std. Dev. 

Min 

Max 

length | 

74 

187.9324 

22.26634 

142 

233 

. ksmirnov length = 

: normal((length-r(mean))/r(sd)) 



One-sample Kolmogorov-Smirnov test against theoretical 
normal((length-r(mean))/r(sd)) 

distribution 

Smaller group 

D 

P-value 

Corrected 



length: 

Cumulative: 
Combined K-S: 

0.0856 

-0.1068 

0.1068 

0.338 

0.185 

0.367 

0.315 



Note: ties exist in dataset; 

there are 47 unique values out 

of 74 observations. 



_ / 












Estatistica Descritiva,Tabelas e Graficos 


55 


O comando ksmirnov esta disponivel na barra de menus. Mesmo nessa opgao o 
Stata® exigira que seja executado o comando summarize, antes da realiza^ao do tes¬ 
te Kolmogorov-Sminorv. Podera ser acessado, clicando nas seguintes op^oes: Statistics 
Nonparametric analysis Tests of hypotheses One-sample Kolmogorov-Smirnov test. 
Aparecera a janela da Figura 2.20. 



Figura 2.20 Janela de configuraqoes do comando ksmirnov. 


Tecnicas de analise multivariada, tais como a analise de discriminante e a MA- 
NOVA ( multivariate analysis of variance), exigem que as variaveis analisadas advenham 
de um grupo de populates que possuam uma distribui^ao normal multivariada. 
Isto significa que: (i) cada uma das variaveis e normalmente distribuida dentro do 
grupo, (ii) qualquer combina^ao linear das variaveis dependentes e normalmente 
distribuida, e (iii) todos os subconjuntos das variaveis devem seguir uma distribui^ao 
normal multivariada. 

Um teste parcial para essa hipotese pode ser obtido com o comando mvtest nor¬ 
mality (Sintaxe 2.18). O mvtest comando foi introduzido no Stata®, a partir da versao 
11.0 teste realizado e o proposto por Doornik e Hansen (2008). 


SINTAXE 2.18 Comando mvtest normality, 

mvtest normality varlist 

Em que: 

• varlist: Lista de variaveis, separadas por espa^os em branco. 


No proximo exemplo, iremos realizar o teste de normalidade multivariada para as 
variaveis length e weight, por intermedio do seguinte comando: 
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mvtest normality length weight 


RESULTADOS 2.19 Teste Doornik-Hansen. 




. mvtest normality length weight 
Test for multivariate normality 

Doornik-Hansen chi2(4) = 13.256 Prob>chi2 = 0.0101 


J 


Para acessarmos o teste Doornik-Hansen, por meio da barra de menus, devemos 
solicitar as seguintes op^oes: Statistics ~} Summaries, tables, and tests ~} Multivariate test of 
means, covariances, and normality. Surgira a janela da Figura 2.21. 



Figura 2.21 Janela de configuraqoes do comando mvtest normality. 

2.3. FREQUENCIA ETABULAgAO BIDIMENSIONAL 

O comando tabulate (Sintaxe 2.19) e utilizado para apresentar a distribui^ao de 
frequencia para os dados, excetuando-se os faltantes ( missing values ) para qualquer variavel. 
O comando pode ser acionado por meio da sua forma reduzida tab. 


SINTAXE 2.19 Comando tabulate para uma variavel. 

tabulate varnamel [, missing] [, sort] [, summarize(varname2)] 

Em que: 

• varnamel: Nome da variavel, para a qual sera efetuada a tabula^ao. 

• missing: Trata os dados faltantes como se fosse uma categoria. 

• sort: Organiza a tabela de frequencia, em ordem decrescente. 

• summarize: Exibe estatisticas descritivas de uma variavel (varname2), considerando as 
classes da variavel que esta sendo tabulada. 
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Primeiro, executaremos com o comando tabulate sem nenhuma op^ao para a 
variavel rep78. 

tabulate rep78 



Para visualizarmos a quantidade de dados faltantes, iremos executar o comando 

tabulate com as op^oes sort missing, 
tab rep78, sort missing 
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Para acessarmos, via barra de menus, o comando tabulate, basta clicarmos nas seguin- 
tes op^oes: Statistics ~} Summaries, tables, and tests ~} Tables One-way tables. Aparecera 
a janela da Figura 2.22. 



Figura 2.22 Janela de configuraqoes do comando tabulate. 


Suponha que, alem de obtermos a tabela de frequencias da variavel rep78, estamos 
interessados em saber o comportamento da variavel price , em cada uma das classes obtidas 
para a primeira variavel. Para tanto, utilizaremos o seguinte comando: 

tab rep78, summarize(price) 


< > 
RESULTADOS 2.22 Tabulando em frequencias uma variavel e exibindo 
estatisticas descritivas de outra variavel para cada classe. 


. tab rep78, summarize(price) 

Repair | Summary of Price 


Record 1978 

Mean 

Std. Dev. 

Freq. 

1 

4,564.5 

522.55191 

2 

2 

5,967.625 

3,579.357 

8 

3 

6,429.233 

3,525.14 

30 

4 

6,071.5 

1,709.608 

18 

5 

5,913 

2,615.763 

11 

Total 

| 6,146.043 

2,912.44 

69 


_ / 


Udlizando a barra de menus, o comando tabulate com a op^ao summarize podera 
ser acessado pelas seguintes op^oes: Statistics ~} Summaries, tables, and tests ~} Tables ~} 
One/two-way table of summary statistics. Surgira a janela da Figura 2.23. 
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Figura 2.23 Janela de configuraqoes do comando tabulate, summarize (). 


Apesar de valiosa, a tabula^ao de cada variavel individualmente pode nao propor- 
cionar uma riqueza de informa^oes suficiente para se entender como duas variaveis sao 
relacionadas. Uma tabela bivariada ( crosstab ) e simplesmente uma tabela que explicita 
a distribui^ao de uma variavel ao longo das categorias de uma segunda variavel. Para 
se criar uma tabela bivariada no Stata®, basta utilizar o comando tabulate, mas em vez 
de uma unica variavel, serao especificadas duas. As categorias da primeira variavel estao 
dispostas na linha e as da segunda variavel, na coluna (Sintaxe 2.20). 


SINTAXE 2.20 Comando tabulate para duas variaveis. 
tabulate varnamel varname2 [, missing] [, chi2] [, nofreq] [, col] [, row] 
ball] 

Em que: 

• varnamel: Nome da primeira variavel. 

• varname2: Nome da segunda variavel. 

• missing: Trata os dados faltantes como se fosse uma categoria. 

• chi2: Apresenta o resultado do teste qui-quadrado de Pearson. 

• nofreq: Nao apresenta as frequences absolutas, apenas as relativas. 

• col: Exibe as frequences apenas para a variavel que esta na coluna. 

• row: Exibe as frequences apenas para a variavel que esta na linha. 

• all: Apresenta todas as estatisticas disponiveis. 


Vamos montar uma tabela cruzada envolvendo as variaveis rep78 e foreign, utilizando 
o seguinte comando: 
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tab rep78 foreign 



Imaginemos que estamos interessados em obter somente as frequences relativas da 
variavel foreign e o resultado do teste qui-quadrado de independence das variaveis price 
e foreign. Utilizaremos o seguinte comando: 

tab rep78 foreign, chi2 nofreq col 


f > 

RESULTADOS 2.24 Tabela cruzada para duas variaveis, utilizando-se 
op^oes. 


. tab rep78 

foreign, chi2 

nofreq col 


Repair 

1 




Record 

Car type 



1978 

Domestic 

Foreign 

1 

Total 


+- 

-+- 


1 

4.17 

0.00 


2.90 

2 

16.67 

0.00 


11.59 

3 

56.25 

14.29 


43.48 

4 

18.75 

42.86 


26.09 

5 

4.17 

42.86 


15.94 


+- 

--+- 


Total 

1 100.00 

100.00 I 


100.00 

Pearson chi2(4) 

- 27.2640 

Pr - 0.000 




J 


Agora, estamos interessados em produzir uma tabela cruzada que inclua dados faltantes 
na tabela no calculo das porcentagens e que calcula todas as estatisticas disponiveis (qui 
-quadrado de Pearson, qui-quadrado da razao da verossimilhanca,V de Cramer, gamma 
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de Kruskal e tau b de Kendall), apenas para a variavel rep78. Para tanto, empregaremos 
o seguinte comando: 

tab rep78 foreign, missing row all 


f > 

RESULTADOS 2.25 Tabela cruzada para duas variaveis, utilizando-se 
opgoes. 





J 
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Caso se deseje acessar o comando tabulate para duas variaveis, podemos utilizar as 
seguintes op^oes, presentes na barra de menus: Statistics ~} Summaries, tables , and tests ~} 
Tables Two-way tables with measures of association. Surgira a janela da Figura 2.24. 



Figura 2.24 Janela de configuraqoes do comando tabulate para duas variaveis, com opgdes. 


O comando tab2 (Sintaxe 2.21) e destinado para a gera^ao de tabelas cruzadas 
considerando todos os pares possiveis das variaveis informadas pelo usuario. 


SINTAXE 2.21 Comando tab2. 

tab2 varlist [, missing] [, chi2] [, nofreq] [, col] [, row] [, all] 

Em que: 

• varlist: Lista de variaveis, separadas por espa^os em branco. 

• missing: Trata os dados faltantes como se fosse uma categoria. 

• chi2: Apresenta o resultado do teste qui-quadrado de Pearson. 

• nofreq: Nao apresenta as frequences absolutas, apenas as relativas. 

• col: Exibe as frequences apenas para a variavel que esta na coluna. 

• row: Exibe as frequences apenas para a variavel que esta na linha. 

• all: Apresenta todas as estatisticas disponiveis. 


Agora, vamos solicitar ao Stata® a gera^ao de tabelas cruzadas envolvendo as variaveis 
rep78 , headroom e foreign. Digitaremos o seguinte comando: 
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tab 2 rep78 headroom foreign 


RESULTADOS 2.26 Tabelas cruzadas para mais de duas variaveis. 


. tab2 rep78 headroom foreign 

-> tabulation of rep78 by headroom 

Repair | 

Record | 

1978 | 1.5 2.0 

Headroom (in. 
2.5 

) 

3.0 

3.5 

4.0 | 

Total 









1 

1 

1 

0 

0 

0 

o 1 

2 

2 

o 

3 

0 

0 

1 

2 1 

8 

3 

o 

5 

5 

4 

10 

3 1 

30 

4 

2 

1 

5 

3 

2 

5 | 

18 

5 

o 

3 

4 

4 

0 

0 ! 

11 









Total 

3 

13 

14 

11 

13 

10 | 

69 

Repair 








Record 

Headroom 

(in.) 






1978 

4.5 

5.0 

Total 





-+-- 

-+- 





1 1 

o 

o 

2 





2 1 

1 

1 

8 





3 1 

3 

0 

30 





4 

o 

0 

18 





5 1 

0 

0 

11 





- + - 

- + - 





Total | 

1 4 

1 

1 69 





-> tabulation of rep78 by foreign 






Repair 

1 







Record 

Car type 






1978 I 

Domestic 

Foreign 

| Total 





- + - 

- + - 





1 1 

2 

o 

2 





2 1 

8 

o 

8 





3 1 

27 

3 

30 





4 I 

9 

9 

18 





5 | 

2 

9 

11 





- + - 

- + - 





Total | 

48 

21 

1 69 





-> tabulation of headroom by foreign 





Headroom 

Car type 






(in.) | 

Domestic 

Foreign 

Total 





- + - 

- + - 





1.5 

3 

1 

4 





2.0 

10 

3 

13 





2.5 

4 

10 

14 





3.0 

7 

6 

13 





3.5 

13 

2 

15 





4.0 

10 

0 

10 





4.5 

4 

0 

4 





5.0 

1 

0 

1 





-+- 

-+- 





Total ] 

1 52 

22 

1 74 








J 


Por meio da barra de menus, acessamos o comando tab2, a partir das seguintes 
opcoes: Statistics Summaries, tables, and tests Tables All possible two-way tabulations. 
Sera exibida a janela da Figura 2.25. 
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Figura 2.25 Janela de configuragoes do comando tab2. 


2.4. OUTROS RECURSOS DA ANALISE EXPLORATORIA 

O Stata® inclui um rico conjunto de ferramentas para a cria^ao de graficos de alta 
qualidade para publica^ao, oferecendo op^oes que permitem que detalhes dos graficos 
sejam controlados. No entanto, em geral, os graficos exigidos pelos usuarios menos es- 
pecializados, na maioria dos casos, podem ser acessados pelas configura^oes-padrao do 
Stata®. 

Alem disso, a interface grafica do Stata® organiza as op^oes de graficos diferentes 
de uma forma intuitiva, proporcionando seu acesso sem que a sintaxe de cada op^ao 
seja memorizada. Isso nao significa que nao e interessante salvar os comandos, mas, 
sim, que, para graficos complexos, a interface grafica auxilia a identifica^ao de tais 
comandos. 

O Stata® tambem possui um editor de graficos que possibilita sua modifica^ao mesmo 
depois que o grafico tenha sido criado. Isto oferece um maior controle, mesmo que nessa 
edi^ao nao seja exibido o comando equivalente as modifica^oes para que o grafico seja 
executado novamente. 

Se, posteriormente, forem necessarias quaisquer altera^oes nos dados, sera necessario 
que o grafico seja criado novamente. Dessa maneira, o grafico, sempre que possivel, deve 
ser criado com todas as configurates desejadas. Mesmo assim, o editor ainda pode ser 
considerado uma ferramenta muito util. 

A cria^ao de graficos nao altera os dados armazenados, logo, o pior que pode acon- 
tecer e o grafico ser mal esbo^ado, o que o torna inutilizavel. 
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Figura 2.26 Grafico de dispersao entre as variaveis trunk e weight. 


Vamos come^ar com um grafico de dispersao simples, em que a area do porta-malas 
(trunk) e defmida como a variavel Y e o peso (weight), como variavel X (Figura 2.26). O 
Stata® refere-se a qualquer grafico em que existem as variaveis Y e X como um grafico 
twoway (Sintaxe 2.22). 


SINTAXE 2.22 Comando twoway. 

twoway plot varnamel varname2 [if] [, by(varname3)] [, sort] 

Em que: 

• plot: Tipo de grafico que sera gerado (scatter, line, bar, Ifit, qfit, Ifitci e qfitci sao alguns dos 
graficos disponiveis). 

• varnamel: Nome da primeira variavel, que ficara no eixo Y. 

• varname2: Nome da segunda variavel, que ficara no eixo X. 

• if: A clausula if (se) permite que o usuario estabelega condi^oes que limitarao a quantidade 
de informagoes que sera exibida. 

• by: A opgao by permite a geragao de graficos independentes para cada subpopula^ao, em 
um mesmo grafico, considerando a variavel varname3. 

• sort: Organiza os dados das variaveis, em ordem crescente. 




66 


Metodos Quantitativos com Stata' 


ELSEVIER 


Na janela de comandos do Stata®, digitaremos o seguinte comando: 

twoway scatter trunk weight 


r 


\ 


RESULTADOS 2.27 Gerando grafico de dispersao. 



|| . twoway scatter trunk weight | 




> 


Caso desejassemos adicionar uma segunda variavel no eixoY no diagrama de dis¬ 
persao, como por exemplo a variavel mpg (Figura 2.27), basta adicionarmos um novo 
grafico entre parenteses ao comando, com a mesma variavel X (weight) mas com uma 
diferente variavel Y. Outra op^ao e separar os comandos com o simbolo | |. Assim, 
digitaremos no Stata® o seguinte comando: 



Figura 2.27 Grafico de dispersao entre as variaveis trunk, mpg e weight. 
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twoway (scatter trunk weight) (scatter mpg weight) 

ou 

twoway scatter trunk weight | | scatter mpg weight 

-\ 

RESULTADOS 2.28 Gerando grafico de dispersao para dois pares de 
variaveis. 

V_> 


Podemos desejar incluir apenas um grupo espedfico de observacoes, que pode ser especi- 
ficado pelo comando if (Resultados 2.29 e Figura 2.28). No nosso exemplo, essa opcao pode 
ser especificada conforme o seguinte comando, caso se deseje apenas plotar carros nacionais. 

twoway (scatter trunk weight) (scatter mpg weight) if foreign = =0 


f > 

RESULTADOS 2.29 Gerando grafico de dispersao para dois pares de 
variaveis, com o uso da op0o if. 


twoway (scatter trunk weight) (scatter mpg weight) if foreign==0 



Figura 2.28 Grafico de dispersao entre as variaveis trunk, mpg e weight, utilizando-se a opgao if. 
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Domestic 


Foreign 



• • 

•• • 

• • • 

• • 

mm • 

• • 


2,000 3,000 

Graphs by Car type 


4,000 5,000 2,000 

Weight (lbs.) 


3,000 


4,000 


5,000 


Figura 2.29 Grafico de dispersao entre as variaveis trunk e weight, utilizando-se a opqao by. 


Utilizando a op^ao by (Figura 2.29) no comando twoway, e esbo^ada separadamente 
cada subpopula^ao em um mesmo grafico. Nesse sentido, por exemplo, para obtermos 
separadamente a rela^ao entre a area do porta-malas e o peso do veiculo, especificamente 
por nacionalidade, o comando e: 

twoway scatter trunk weight, by(foreign) 


f > 

RESULTADOS 2.30 Gerando grafico de dispersao para duas variaveis, 
com o uso da opgao by. 

_ > 


Voltando ao grafico no qual se explicita a rela^ao entre o tamanho do porta-malas 
e o peso do veiculo, podemos desejar conectar os pontos. Nesse caso, em vez de se 
solicitar um grafico de dispersao (scatter), podemos solicitar um grafico de linha (line) 
(Resultados 2.31 e Figura 2.30), por meio do seguinte comando: 

twoway line trunk weight 

Provavelmente, o grafico nao se apresentou como o esperado: de fato, o grafico 
aparenta ser somente um monte de rabiscos. Isso porque, por padrao, o Stata® 
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-\ 

RESULTADOS 2.31 Gerando grafico de linha para duas variaveis. 


s_> 



in - 


T 


2,000 3,000 4,000 

Weight (lbs.) 

Figura 2.30 Grafico de linha entre as variaveis trunk e weight. 


— r~ 
5,000 



estabelece a liga^ao entre a observa^ao um para a dois, e da observa^ao dois para 
a tres, e assim por diante, seguindo a ordem no banco de dados. Contudo, o que 
realmente desejamos e que sejam ligados o veiculo com menor peso com o proximo 
de menor peso. Portanto, deve-se explicitar essa op^ao por intermedio da op^ao 
sort (Resultados 2.32 e Figura 2.31). 
twoway line trunk weight, sort 


/-\ 

RESULTADOS 2.32 Gerando grafico de linha para duas variaveis, com a 
opgao sort. 

< _ > 
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Figura 2.31 Grafico de linha entre as variaveis trunk e weight, utilizando a opgao sort. 

O Stata® pode plotar diferentes tipos de linha de ajustamento automaticamente. 
As mais comuns estao associadas aos comandos lfit (tendencia linear), qfit (tendencia 
quadratica), lfitci (tendencia linear com intervalos de confian^a) e qfitci (tendencia 
quadratica com intervalos de confian^a). Eles nao sao muito interessantes por si sos, mas 
geralmente sao sobrepostos a um grafico de dispersao. 

Por exemplo, suponha que queiramos visualizar a reta linear que relaciona a variavel 
mpg com a variavel weight (Figura 2.32). Para isso, utilizaremos o seguinte comando: 



o Mileage (mpg) - Fitted values 


Figura 2.32 Grafico de dispersao entre as variaveis mpg e weight, com uma linha de tendencia. 
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twoway scatter mpg weight | | lfit mpg weight 

f > 

RESULTADOS 2.33 Gerando grafico de dispersao para duas variaveis, 
com a linha de tendencia. 



V_/ 

Para acessar os comandos anteriormente apresentados, via barra de menus, devemos 
selecionar as seguintes op^oes: Graphics Two way graph (scatter, line, etc.). Ira surgir a 
janela da Figura 2.33. 



Figura 2.33 Janela de configuraqao - Comando twoway. 


Basta que cliquemos no botao Create, para gerar um novo grafico. Ao cliclarmos, 
surgira outra janela, na qual informaremos o tipo de grafico e as variaveis a serem 
utilizadas (Figura 2.34). 



Figura 2.34 Janela de configuraqao - Comando twoway - Criando novo grafico. 
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Ao clicarmos no botao Accept, sera armazenado o novo grafico a ser gerado. Assim, 
poderemos repetir o processo e solicitar quantos graficos desejamos que o Stata® gere. 

O Stata® apresenta diferentes versoes do grafico de barras. O comando twoway bar 
e apenas uma varia^ao do comando que ja foi visto. 

Tambem existem graficos que nao fazem parte da familia twoway. Por exem- 
plo, para gerar um grafico de barras podemos utilizar o comando graph bar 
(Sintaxe 2.23). 


SINTAXE2.23 Comando graph bar. 

graph plot yvars [, over(varnamel)] 

Em que: 

• plot: Representa o grafico; nessa op<;ao podem ser utilizados: bar (barras verticals) e hbar 
(barras horizontais). 

• yvars: Lista de variaveis, separadas por espa<;os em branco. 

• over: Opgao que indica qual a variavel (varnamel) que sera utilizada para segregar as demais. 


Por exemplo, imagine que queremos obter graficos de barras das variaveis weight e 
price, separando-as de acordo com a origem dos veiculos (variavel foreign) (Figura 2.35). 
Para isso, basta digitarmos o seguinte comando: 



mean of weight 


mean of price 


Figura 2.35 Grafico de barras entre as variaveis weight e price, separando os resultados pelas cate- 
gorias da variavel foreign. 
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graph bar weight price, over (foreign) 

f > 

RESULTADOS 2.34 Gerando grafico de barras para duas variaveis, 
separando os resultados por outra variavel. 



V_/ 

Para acessar esse comando, por meio da barra de menus, podemos utilizar as seguintes 
op^oes: Graphics ~} Bar chart. Aparecera a janela da Figura 2.36. 




Figura 2.36 Janela de configuraqao - Comando graph bar. 

2.5. CASOAPLICADO 


A base de dados Rentabilidade_MM.dta, divulgada na revista Exame Melhores e 
Maiores, contem a Rentabilidade Ajustada com data referenda de 2007 para mil empresas. 
Em uma inspe^ao inicial dos dados, e possivel observar a existencia de um numero 
significativo de dados faltantes na amostra (Figura 2.37). 





I 


Figura 2.37 Dados faltantes na base de dados Rentabilidade_MIVI.dta. 
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A existencia de dados faltantes ( missings ) pode interferir no calculo de certas estatis- 
ticas descritivas desejadas, podendo acarretar um vies na analise dos resultados. Dessa 
maneira, os dados ausentes foram excluidos da amostra, conforme o seguinte comando: 

drop if rentabilidade==. 


RESULTADOS 2.35 Apagando valores faltantes (missings). 


Esse procedimento indicou a exclusao inicial de 173 empresas, resultando em uma 
amostra inicial de analise de 827 empresas. Diante das considera^oes iniciais expostas, o 
comando summarize do Stata® foi utilizado para que um primeiro diagnostico sobre 
a amostra pudesse ser realizado. 

summarize rentabilidade, detail 


f > 

RESULTADOS 2.36 Estatisticas descritivas detalhadas da variavel 
rentabilidade. 


. summarize rentabilidade, detail 


Rentabilidade Ajustada 



Percentiles 

Smallest 



1% 

-161.448 

-988.895 



5% 

-16.607 

-680.048 



10% 

-4.286 

-541.027 

Obs 

827 

25% 

3.35 

-301.31 

Slim of Wgt. 

827 

50% 

10.377 


Mean 

6.629724 



Largest 

Std. Dev. 

54.38093 

75% 

19.475 

73.138 



90% 

30.334 

74.538 

Variance 

2957.286 

95% 

41.249 

94.279 

Skewness 

-11.77969 

99% 

61.512 

100.023 

Kurtosis 

182.6396 


_7 


Em que: 

Mean = Media 

Std. Dev. = Desvio-padrao 











Estatistica Descritiva,Tabelas e Graficos 


75 


Variance = Variancia 
Skewness = Assimetria 
Kurtosis = Curtose 
Percentiles = Percentis 
Mediana = Percentis 50% 

Por intermedio das medidas de posi^ao e possivel avaliar onde os dados estao concen- 
trados, possibilitando detectar quais sao, aparentemente, os valores tipicos ou centrais. 
Calculando as estadsticas descritivas, obteve-se uma media de 6,63 e mediana de 10,38. 
Uma vez que a media e inferior a mediana calculada, uma primeira conclusao a ser 
alcan^ada seria a de que valores extremamente baixos interferiram no calculo da media, 
“puxando-a para baixo”. Essa hipotese e corroborada pelos valores maximos e minimos 
encontrados (percentil 99%: 100,02; percentil 1%: -988,90). O percentil 1% de -988,90 
demonstra um comportamento bem destoante do comportamento medio da amostra. 

Entretanto, a analise das medidas de tendencia central por si so nao permite um 
entendimento completo, impossibilitando avaliar a regularidade com a qual as observa^oes 
se apresentam. Para se estimar a varia^ao existente nos dados, isto e, como os mesmos 
estao espalhados, mostra-se necessario o calculo de medidas tais como a variancia e o 
desvio-padrao. A variancia e o desvio-padrao calculados para a amostra foram de 2957,29 
e de 54,38, respectivamente. O desvio-padrao nada mais e do que a raiz quadrada da 
variancia, transformando a medida de acordo com a unidade original dos dados. O 
coeficiente de varia^ao, por sua vez, fornece meios adicionais para a interpreta^ao da 
magnitude do desvio-padrao: seu calculo demonstrou um patamar de varia^ao das 
observa^oes de cerca de 820% (54,38/6,63*100); valor este extremamente elevado, o 
que caracteriza uma alta dispersao dos dados. 

O fato de ter sido encontrada uma media inferior a mediana denota uma assime¬ 
tria na distribui^ao dos dados, mais especificamente a esquerda (negativa), constata^ao 
corroborada pelo coeficiente de assimetria de -11,80. Por fim, o quarto momento da 
distribui^ao, isto e, a curtose, indicou se tratar de uma distribui^ao leptocurtica, uma 
vez que o coeficiente de curtose foi superior a 0 (180,74). O pico mais pronunciado e 
a cauda longa apontada para a direita podem ser observados no histograma esbo^ado ao 
se digitar o seguinte comando: (Figura 2.38) 
histogram rentabilidade 


f \ 

RESULTADOS 2.37 Histograma. 

I . histogram rentabilidade 

(bin=28, start=-988.89502, width=38.889929) 

_ / 
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in 

o 



in 
o - 
o 


o 


r~ 


-1000 -800 -600 -400 -200 

Rentabilidade ajustada com 2007 como data de referenda 


0 


Figura 2.38 Histograma da variavel rentabilidade. 

Esse criterio resultou na exclusao de oito empresas. Outra maneira apresentada 
por Stevenson (1981) utiliza-se do diagrama box-plot e do calculo do intervalo in- 
terquartil: 




Os quartis sao medidas de posi^ao que segregam um conjunto de dados, dispostos 
em ordem crescente em quatro partes com dimensoes iguais, em que o 1° quartil (Q 1 
ou 25° percentil) significa que 25% dos dados sao inferiores a Q ou que 75% dos dados 
sao superiores a Q o 2° quartil (Q 9 ou 50° percentil) corresponde a mediana e significa, 
como discutido, que 50% dos dados sao inferiores a Q 9 , e o terceiro quartil (Q ou 75° 
percentil) significa que 75% dos dados sao inferiores a Q 3 ou que 25% dos dados sao 
superiores a Q y 

Segundo informa^oes apresentadas na estatistica descritiva, o primeiro e o terceiro 
quartis equivalem a 3,35 e 19,475, respectivamente, resultando em um intervalo in- 
terquartil (Q3-Q1) de 16,125. Aplicando a Equa^ao 2.2, com k = 1,5, constata-se que 
devem ser excluidos valores abaixo de -20,84 e valores acima de 43,66. A exclusao pode 
ser realizada a partir do seguinte comando: 
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drop if rentabilidade <=-20.84 | rentabilidade> =43.66 


— 

RESULTADOS 2.38 Excluindo observances consideradas outliers. 


A 


s._7 

Por esse metodo, 70 empresas foram excluidas da amostra. Levando em conta os dados 
finais apos exclusao dos outliers, as estatisticas descritivas foram elaboradas novamente, 
conforme apresentado nos Resultados 2.39. 

summarize rentabilidade, detail 


-\ 

RESULTADOS 2.39 Estatisticas descritivas detalhadas. 


. summarize rentabilidade, detail 


Rentabilidade Ajustada 



Percentiles 

Smallest 



1% 

-16.598 

-20.644 



5% 

-6.298 

-19.811 



10% 

-1.225 

-19.728 

Obs 

757 

25% 

3.977 

-19.283 

Sum of Wgt. 

757 

50% 

10.377 


Mean 

11.40703 



Largest 

Std. Dev. 

11.30906 

75% 

18.334 

42.832 



90% 

26.985 

43.059 

Variance 

127.8947 

95% 

32.541 

43.22 

Skewness 

.2213965 

99% 

41.003 

43.322 

Kurtosis 

3.281288 


_7 


A mediana, que antes se encontrava no patamar de 10,38, apos a exclusao dos out¬ 
liers permaneceu a mesma. Contudo, a media, antes influenciada por valores extremos, 
aproximou-se da mediana, passando de 6,63 para 11,41. A assimetria, que antes era a es- 
querda (negativa), com um coeficiente de assimetria de -11,80 (e uma mediana superior 
a media), passou a ser a direita e bem menos pronunciada (coeficiente de 0,222). Da 
mesma maneira, houve uma redu^ao significativa no coeficiente da curtose, que passou 
de 180,74 para 0,291. Portanto, o terceiro e o quarto momentos demonstraram uma 
aproxima^ao da distribui^ao a normal, como demonstrado pelo histograma esbo^ado 
ao se digitar o seguinte comando (Figura 2.39): 
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Figura 2.39 Novo histograma da varidvel rentabilidade. 
histogram rentabilidade 


< > 

RESULTADOS 2.40 Novo histograma. 


. histogram rentabilidade 

(bin=27, start=-20.643999, width=2.369111) 


_ 7 


A variancia e o desvio-padrao apresentaram uma queda brusca, quando comparados 
aos valores obtidos na amostra completa (sem a exclusao de outliers). Seus valores cal- 
culados foram de 127,90 e 11,31, respectivamente. O coeficiente de varia^ao, apesar de 
ainda relativamente elevado (11,31/11,41 = 99,12%), foi bastante inferior ao coeficiente 
encontrado anteriormente, de cerca de 820%. 

Os resultados explicitam os efeitos que a presen^a de outliers pode ocasionar na 
estima^ao das estatisticas descritivas e nas inferences sobre a populagao subjacente a 
amostra. Os outliers distorceram o calculo dos quatro momentos da amostra (media, 
variancia, assimetria e curtose), interferindo na distribui^ao dos dados, afastando-a 
significativamente da distribui^ao normal. A nao exclusao dessas observa^oes poderia 
resultar em conclusoes erroneas por parte do pesquisador, reduzindo, assim, a possibilidade 
de generaliza^ao de resultados. 
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2 . 6 . EXERCICIOS 


1. Inicialmente, solicite a abertura da base de dados auto.dta utilizando o comando 
sysuse (sysuse auto). Apos a abertura dessa base de dados, calcule as estatisticas des- 
critivas da variavel rep78 (numero de reparos no ano de 1978). Pergunta-se: 

a. Qual e o numero total de observa^oes? 

b. Qual e o numero de missings (dados faltantes)? 

c. Qual e o valor minimo da variavel x? 

d. Qual e o valor maximo da variavel x? 

2. Com a mesma base de dados auto.dta utilizada na questao 1, com rela^ao a variavel 
weight , pede-se: 

a. Existe algum caso com informa^oes faltantes ( missing )? 

b. Calcule as seguintes medidas de tendencia central: media, mediana e quartis. 

c. Calcule as medidas de dispersao: amplitude, variancia, desvio-padrao. 

d. Estime os coeficientes para as seguintes medidas de forma: Assimetria e Curtose. 

3. Com a mesma base de dados auto.dta utilizado na questao 1, pede-se: 

a. Elabore um histograma desta vez para a variavel gear_ratio (razao da engrenagem 
do cambio). Pode-se afirmar que essa variavel se comporta como uma normal? 
Realize os testes destinados para tal. 

b. Elabore um histograma para a variavel rep78. Cabe ressaltar que se tratam de dados 
discretos, devendo essa caracteristica ser especificada quando da elaboragao do grafico. 

c. Elabore um grafico de dispersao para avaliar se existe uma rela^ao entre o pre^o 
(price) e a potencia dos alto-falantes (headroom). 

4. A seguir esta apresentada a serie historica do IPCA de jan./2010 ate dez./2012. Com 
base nesses dados pede-se: 


Indice do mes (em %) 


jan./lO 

0,75 

fev./lO 

0,78 

mar./lO 

0,52 

abr./lO 

0,57 

maio/10 

0,43 

jun./lO 

0,00 

jul./lO 

0,01 

ago./10 

0,04 

set./lO 

0,45 

out./lO 

0,75 

nov./lO 

0,83 

dez./lO 

0,63 


jan./ll 

0,83 

fev./ll 

0,80 

mar./11 

0,79 

abr./ll 

0,77 

maio/11 

0,47 

jun./ll 

0,15 

jul./ll 

0,16 

ago./11 

0,37 

set./ll 

0,53 

out./II 

0,43 

nov./ll 

0,52 

dez./ll 

0,50 


jan./12 

0,56 

fev./12 

0,45 

mar./12 

0,21 

abr./12 

0,64 

maio/12 

0,36 

jun./12 

0,08 

jul./12 

0,43 

ago./12 

0,41 

set./12 

0,57 

out./12 

0,59 

nov./12 

0,60 

dez./12 

0,79 


a. Elabore um grafico de dispersao para a serie historica apresentada. 

b. Elabore um grafico de linha para os mesmos dados. 
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Testes de Hipotese e Analise 
de Variancia (ANOVA) 


3.1. INTRODUgAO A INFERENCIA ESTATISTICA 

Frequentemente precisamos obter conclusoes validas sobre um grande grupo de 
individuos ou objetos. Para compreensao de inferencia estatistica, os dois conceitos 
mais importantes sao: popula^ao e amostra. Uma popula^ao pode ser definida como a 
totalidade de todas as observa^oes possiveis sobre medidas ou ocorrencias. A popula^ao 
pode ser finita ou infmita. 

Contudo, em vez de examinar todo o grupo (popula£ao),pode-se estudar apenas uma 
pequena parte (amostra) dessa popula^ao. Desde que essa amostra seja representativa dessa 
popula^ao, podemos fazer inferences sobre a segunda, a partir da analise da primeira. A 
inferencia estatistica e o processo que tern por objetivo inferir (generalizar) determinados 
fatos acerca da popula^ao, a partir de resultados observados na amostra. 


3.2. TESTES DE HIPOTESE COM UMA AMOSTRA 

Nesse tipo de teste, geralmente e feita uma afirma^ao sobre a media populacional, e 
depois a comparamos com a estatistica obtida a partir da amostra (FAVERO et al ., 2009). 
Para isso, quando os dados possuem distribui^ao normal utilizamos a estatistica t, que 
segue uma distribui^ao t de Student com n-1 g.l. (graus de liberdade). A estatistica t e 
calculada a partir da media amostral, da media populacional, do desvio-padrao amostral 
e do tamanho da amostra, conforme demonstrado na expressao a seguir: 

X-LL 

t = - ic^— 

<7 [Equa^ao 3.1] 

Jn 


Suponha que em uma pesquisa anual com o historico de 10 anos a media de repara- 
£ao dos carros tenha se apresentado constante nos ultimos anos. Nao existem indicios de 
que essa media foi alterada no ano de analise. Contudo, por meio do teste de hipoteses 
buscam-se altera^oes nesse valor medio. O teste de hipoteses que voce deseja implementar 
visa verificar se a media do valor de vendas esta aumentando ou diminuindo. 
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1. O primeiro passo do teste consiste em enunciar a hipotese nula (H Q ) e a hipotese 
alternativa (H^ do teste, que no caso sao: 

H 0 -./i = 3 
H t :/i ^ 3 

2. O segundo passo consiste na defini^ao do nivel de significance estatistica do teste 
(a), geralmente igual a 5% em ciencias sociais aplicadas. 

3. Dado que o tamanho da amostra e n = 69, teremos n-1 g.l. = 68 g.l. para o teste t. 
No Stata® o teste t para a compara^ao de uma media e realizado por meio do 

comando ttest. No caso anteriormente apresentado sera utilizada a base de dados auto, 
dta, que acompanha o aplicativo (lembre-se de que a mesma podera ser aberta com o 
comando sysuse auto), sendo a nossa variavel de interesse a rep78 (repara^ao). Para isso, 
podemos utilizar o seguinte comando: 
ttest rep78 = =3 

A Figura 3.1 apresenta o passo a passo para a elaboragao do teste por meio das janelas 
de comando. 




Figura 3.1 Janelas para aplicaqao do teste t para 
media em uma amostra. 
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1 

RESULTADOS 3.1 

Teste t para uma amostra. 


\ 


. tteat rep78= = 3 





One-sample 

t test 





Variable | 

Obs 

Mean Std. Err. Std. Dev. 

[95% Conf. Interval] 



rep78 | 

69 

3.405797 .1191738 .9899323 

3.167989 3.643605 



mean = 

mean(rep78) 

t = 3.4051 



Ho: mean = 

3 

degrees 

of freedom = 68 



Ha: mean < 3 

Ha: mean 1= 3 

Ha: mean > 3 



Pr(T < t) 

= 0.9994 

Pr (| T | > | t |) = 0.0011 

Pr(T > t) = 0.0006 




> 


O metodo de constru^ao de um teste de hipoteses parte da fixagao do nivel de 
significancia a. Os resultados do teste t sao analisados a partir da compara^ao entre o 
nivel de significancia e a probabilidade ou p-valor do teste ou da compara^ao entre a 
estatistica t calculada e o respectivo valor critico para o nivel de significancia defmido. 

O p-valor pode ser usado para tomar decisoes em um teste de hipoteses, observan- 
do-se que: 

1. Se o p-valor e menor que a, o valor da estatistica de teste esta na regiao de rejei^ao 
da hipotese nula. 

2. Se o p-valor e maior ou igual a a, o valor da estatistica de teste nao esta na regiao 
de rejei^ao da hipotese nula, ou seja, na regiao critica do teste (RC). 

Portanto, deve-se rejeitar H Q se o p-valor < a. 

No exemplo anterior, podemos notar que os resultados exibidos pelo Stata® apre- 
sentam p-valores para tres hipoteses alternativas, enquanto a hipotese nula e a 
mesma H Q \ jn = 3. Nossa hipotese alternativa foi de que Hp /jl ^ 3. Considerando essas 
hipoteses, o teste retornou um p-valor de 0,0011 (ou 0,11%), que e inferior ao nivel de 
significancia fixado (0,05 ou 5%) e conduz a rejei^ao da hipotese nula de que a media 
de reparos anual seria igual a tres. 

Caso desejassemos saber se a media seria igual ou inferior a tres, como hipoteses nula 
e alternativa teriamos H Q \ /jl = 3 e Hp /jl < 3, respectivamente, e verificariamos que, com 
uma probabilidade de 0,9994, a media seria estatisticamente igual a tres.Todavia, caso 
as hipoteses nula e alternativa fossem H Q : /jl = 3 c H^. fi >3, respectivamente, veriamos 
que o teste resultou em um p-valor de 0,0006, o que levaria a aceita^ao da hipotese 
alternativa de que a media seria maior do que tres. 

De acordo com Levine et al (2000): 

• O teste t de uma amostra e considerado um procedimento parametrico classico. 

• Como tal, estabelece uma serie de pressupostos restritivos que devem se manter, se 
quisermos estar seguros de que os resultados que obtivermos ao empregar o teste sao 
validos. 
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• Em particular, para utilizar o teste t para uma amostra, pressupoe-se que os dados 
numericos obtidos sao extraidos independentemente e representam uma amostra 
aleatoria de uma popula^ao que e normalmente distribuida, ou seja, deve-se seguir 
uma distribui^ao normal. 

3.3. TESTES DE HIPOTESE COM DUAS AMOSTRAS 

Em diversas situates estaremos interessados em verificar se as medias de duas amostras 
apresentam diferen^as significativas ou se podem ser consideradas como estatisticamente 
iguais. 

Para esse fim, deve-se lan^ar mao de testes apropriados para essas compara^oes. 

O caso mais abrangente e aquele em que existem populates com variancias desiguais. 
Para esse caso, e necessario calcular os graus de liberdade da distribui^ao t, considerando 
as variancias de ambas as amostras. Em sentido contrario, caso as variancias fossem iguais, 
a distribui^ao t utilizada possuiria n-2 g.l. 

Para se testar se as medias das duas populates sao estatisticamente diferentes, deve-se 
usar a seguinte estatistica t: 


x-y 


to 

9 

V n 

m 


T. 


Hg-i-) 


k = 


( 2 2 Y 

^1 ® 2 

K n m 


2 9 

2 

( 2 7 

07 


07 

v » y 

-1- - 

v m J 


(n - 1) (m — 1) 


[Equa^ao 3.2] 


Voltaremos a utilizar o comando ttest. Suponha que desejamos saber se ha diferen- 
£as entre a media de reparo (rep 78) dos carros nacionais e estrangeiros (sendo o tipo 
identificado na variavel foreign). Considerando o caso mais comum, de que os grupos 
apresentam variancias desiguais, utilizaremos o seguinte comando: 

ttest rep78, by (foreign) unequal 

A Figura 3.2 apresenta o passo a passo para a elabora^ao do teste por meio das janelas 
de comando. 
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Figura 3.2 Janelas para aplicagao do teste t para 
comparagao de medias de duas amostras. 


-\ 

RESULTADOS 3.2 Teste t para duas amostras com variancias desiguais. 


. ttest rep78, by(foreign) unequal 
Two-sample t test with unequal variances 


Group 


Obs 

Mean 

Std. Err. 

Std. Dev. 

[95% Conf. 

, Interval] 

Domestic 


48 

3.020833 

.1209067 

.837666 

2.7776 

3.264066 

Foreign 


21 

4.285714 

.1564922 

.7171372 

3.959277 

4.612151 

combined 


69 

3.405797 

.1191738 

.9899323 

3.167989 

3.643605 

diff 



-1.264881 

.197758 


-1.663363 

- .8663991 

diff 

= mean(Domestic) - mean(Foreign) 


t 

- -6.3961 

Ho: diff 

= 0 



Satterthwaite 

's degrees 

of freedom 

= 44.288 


Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 

Pr (T < t) - 0.0000 _ Pr ( [ T | > 111 ) - 0.0000 _ Pr(T > t) - 1.0000 

J 

De acordo com os p-valores apresentados para cada par de hipoteses nula e alternativa, 
verifica-se que as medias dos carros nacionais e dos estrangeiros sao estatisticamente 
diferentes ( H Q : diff = 0 versus H } : diff^ 0, em que diff = media nacionais — media es¬ 
trangeiros) e que a media dos carros nacionais e menor do que a media de reparos dos 
estrangeiros (H Q : diff = 0 versus Hp diff < 0). 
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Caso as variancias dos grupos fossem iguais, o comando utilizado seria o seguinte: 

ttest rep78, by (foreign) 

f > 

RESULTADOS 3.3 Teste t para duas amostras com variancias iguais. 


. ttest rep78, by(foreign) 

Two-sample t test with equal variances 

Group 

1 


Obs 

Mean 

Std. Err. 

Std. Dev. 

[95% Conf. 

Interval] 

Domestic 



48 

3.020833 

.1209067 

.837666 

2.7776 

3.264066 

Foreign 



21 

4.285714 

.1564922 

.7171372 

3.959277 

4.612151 

combined 



69 

3.405797 

.1191738 

.9899323 

3.167989 

3.643605 

diff 

! 



-1.264881 

.2102445 


-1.684531 

-.8452312 

diff 


mean(Domestic) - mean(Foreign) 


t -= 

-6.0162 

Ho: diff 

- 

0 




degrees 

of freedom = 

67 

Ha: diff 

< 0 

Ha: diff 1 

= 0 

Ha: diff > 0 

Pr(T < 1 

t) 

= 

0.0000 

Pr(|T| 

> 1 1 1 ) = 

0.0000 

Pr(T > t) 

= 1.0000 


v_/ 

Nos Resultados 3.3 verifica-se que nao houve alteragoes em rela^ao ao caso anterior. 

Qualquer que seja a decisao tomada, estamos sujeitos a cometer erros. Desta maneira, temos: 

Erro do Tipo I: rejeitar a hipotese nula quando essa e verdadeira. 

a = P(erro do tipo I) = P(rejeitar H Q \ H Q e verdadeira) 

Erro do Tipo II: nao rejeitar H 0 quando H Q e falsa. 

(3 = P(erro do tipo II) = P(nao rejeitar H Q \ H Q e falsa) 

Para ser capaz de utilizar o teste t, e necessario determinar se as duas populates (ou 
amostras) tern a mesma variancia, ou nao. Nesse caso, utiliza-se o teste F, que compara 
a variancia de duas populates. Nesse caso, as hipoteses nula e alternativa sao, res- 
pectivamente: 

H q : As duas populates tern a mesma variancia. 

H : As duas populates nao tern a mesma variancia. 

Ao se analisar o resultado do teste F, pode-se determinar se deve ser selecionada 
a op^ao Unequal variances, ou nao. Essa decisao e baseada no teste F, que ira avaliar a 
variancia de duas populates. 

Considerando o exemplo anterior, o comando para a execu^ao do teste F para 
verificar a igualdade (homogeneidade) das variancias e o seguinte: 

sdtest rep78, by(foreign) 

A Figura 3.3 apresenta o passo a passo para a elabora^ao do teste por meio das janelas 
de comando. 

A parte superior dos Resultados 3.4 contem algumas estatisticas descritivas dos dois 
grupos. Na segunda parte do output , e apresentado o teste F propriamente dito. Um p 
-valor maior igual a 0,05 significa que a hipotese nula, que assume que as variancias sao 
equivalentes, e aceitavel e, portanto, pode-se utilizar a op^ao padrao ( default) do programa 
de variancias equivalentes do teste t, anteriormente apresentado. Um p-valor menor 
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Figura 3.3 Janelas para aplicaqao do teste F para 
comparagao de variancias de duas amostras. 


-\ 

RESULTADOS 3.4 Teste F para igualdade de variancias. 


. sdtest rep78, by(foreign) 
Variance ratio test 


Group | 

Obs 

Mean 


Std. Err. 

Std. Dev. 

[95% Conf 

. Interval] 

Domestic | 

48 

3.020833 


.1209067 

.837666 

2.7776 

3.264066 

Foreign j 

21 

4.285714 


.1564922 

.7171372 

3.959277 

4.612151 

combined | 

69 

3.405797 


.1191738 

.9899323 

3.167989 

3.643605 

ratio = sd(Domestic) / sd(Foreign) 


f 

= 1.3644 

Ho: ratio = 1 





degrees 

of freedom 

= 47, 20 

Ha: ratio 

< 1 


Ha 

: ratio != 

= 1 

Ha: 

ratio > 1 

Pr (F < f) = 

0.7726 

2* 

Pr(F > f) = ( 

).4548 

Pr (F > 

f) = 0.2274 


_ / 
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que 0,05 significa que e necessario selecionar a op^ao Unequal variances ao realizar o 
teste t. Nesse caso, o nivel de significance e confortavelmente acima de 0,05, e portanto 
variances equivalentes sao assumidas (Figura 3.4). 



Figura 3.4 Seleqao da opgao Unequal variances. 

3.4. anAlise devariAncia (anova) 

A analise de variance (ANOVA) engloba um grupo de metodos para testar hipoteses 
sobre diferen^as entre medias. O grupo de aplica^oes alcanna desde uma simples analise 
em que se compara a media da variavel y ao longo das categorias da variavel x, ate 
situates mais complexas, com multiplas categorias e medidas para a variavel x. O teste 
t para hipoteses relacionadas a uma unica media (one sample ) ou a um par de medias (two 
samples) corresponde as formas elementares da ANOVA. 

Testes baseados em postos (rank tests) nao parametricos, incluindo o teste de sinais, 
Mann-Whitney e Kruskal-Wallis, empregam uma diferente abordagem para comparar 
distributes. Esses testes assumem pressupostos mais fracos sobre a medida, o formato 
e a dispersao da distribui^ao. Consequentemente, eles permanecem validos sob um 
grupo mais amplo de condi^oes do que a ANOVA e seus testes similares “parametricos”. 
Analistas cuidadosos muitas vezes empregam os testes parametricos e nao parametricos 
em conjunto, checando para avaliar se ambos apontam a mesma conclusao. 

O modelo da ANOVA possui uma flexibilidade consideravel, englobando um am¬ 
plo grupo de modelos. A ANOVA pode se ajustar para one-way , n -way e a analise de 
covariancia (ANCOVA) para dados balanceados e nao balanceados (quando ha dados 
faltantes). Uma caracteristica importante do Stata® e que ele nao tern modos ou modulos. 
Nao e necessario instalar um modulo especifico para estimar um modelo ANOVA, basta 
digitar o comando. Essa caracteristica possibilita que outros comandos Stata® sejam 
intercalados, levando a um melhor entendimento dos dados. 

3.5. ANALISE MULTIVARIADA DE VARlANCIA 

Suponha que uma institui^ao fmanceira estivesse interessada em investigar a adequa- 
£ao do limite de credito concedido aos clientes de uma carteira especifica. Para tanto, 
faz uso da analise da rela^ao entre o valor tornado e o limite de credito nos produtos 
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de cheque especial e de cartao de credito. Alem disso, imagine que a empresa esteja 
interessada em analisar se existem diferen^as significativas para esse quesito em rela^ao 
as classes sociais dos clientes. 

Para tanto, as variaveis dependentes sao os percentuais de utiliza^ao do credito em 
rela^ao aos respectivos limites concedidos no cheque especial e no cartao de credito e 
a variavel independente refere-se as classes sociais. 

Assim, a hipotese nula pode ser descrita da seguinte maneira (FAVERO et al, 2009): 


cartao,classeA 


f \ 

cartao, classeB 


/ \ 

I 1 cartao,classeC 

_ 

_ 

cheque, classeA 


A^ cheque, classeB 


A^ cheque, classeC 


[Equa^ao 3.3] 


Os dados utilizados no exemplo estao disponibilizados no arquivo exemplomanova. 
dta. 

Antes de realizarmos a MANOVA propriamente dita, e necessario que averiguemos 
a validade dos pressupostos subjacentes a utiliza^ao dessa tecnica. 

Uma das suposi^oes estabelecidas pela MANOVA e de que as variaveis sejam prove- 
nientes de um grupo de populates que seguem uma distribui^ao normal multivariada. 
Isso significa que cada uma das variaveis dependentes e normalmente distribuida dentro 
do grupo, que qualquer combinagao linear das variaveis dependentes e normalmente 
distribuida, e que todos os subconjuntos das variaveis devem seguir uma distribui^ao 
normal multivariada. Um teste para verifica^ao desta hipotese pode ser aplicado usando-se 
o comando mvtest normality, que foi introduzido no Stata® versao 11. No nosso 
exemplo, o teste pode ser realizado por meio do seguinte comando: 

mvtest normality perc_cartao perc_cheque 


RESULTADOS 3.5 Teste de normalidade multivariada. 


. mvtest normality perccartao perccheque 
Test for multivariate normality 

Doornik-Hansen_chi2 (4) - 12.736 Prob>chi2 - 0.0126 


J 


Com respeito ao Erro do tipo I, apesar do teste de normalidade multivariada de 
Doornik-Elansen rejeitar a hipotese nula sobre a existencia de normalidade multivariada 
das variaveis selecionadas, a um nivel de significancia de 5%, a MANOVA tende a ser 
robusta a pequenas violates da suposi^ao de normalidade multivariada (http://www. 
ats.ucla.edu/stat/stata/dae/manoval.htm, acesso em 10/04/2013). 
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Alem da premissa de normalidade multivariada das variaveis dependentes, a MA- 
NOVA pressupoe igualdade de suas matrizes de variancia-covariancia, as quais sao 
avaliadas pelo teste Box's M e pelo teste de Levene. O teste Box's M e utilizado para 
investigar se ha indicios que levam a rejei^ao da hipotese nula de igualdade das matrizes 
de variancia-covariancia entre os grupos, tendo em vista que ha mais de uma variavel 
dependente no estudo. O comando geral para esse teste pode ser dado por: 
mvtest covariance perc_cartao perc_cheque, by( classesocial) 

A Figura 3.5 apresenta o passo a passo para a elabora^ao do teste por meio das janelas 
de comando. 


| Stata/SE 12.0 C:\BaswdcdadosVcxemplomanova.dta [Results] 
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RESULTADOS 3.6 Teste de igualdade das matrizes de 
variancia-covariancia. 




. mvtest covariance perc_ 

cartao perc_ 

cheque, by( 

classesocial) 

Test of equality of covariance matrices across 3 

samples 

Modified LR chi2 = 

6.443816 



Box F(6,68119.7) = 

1.05 

Prob > F 

= 0.3917 

Box chi2(6) = 

6.29 

Prob > chi2 

= 0.3916 






Os resultados do teste Box's M sugerem a nao rejei^ao da hipotese nula de igualdade 
das matrizes de covariancia, com significancia de 5%. 

O teste de Levene, por sua vez, e utilizado para analisar a existencia de homogeneidade 
em cada variavel dependente individualmente (FAVERO et al, 2009). O comando 
robvar estima o teste de Levene de igualdade de variancias (denominado WO). Os co- 
mandos para analisar a homogeneidade de variancia das variaveis perc_cartao e perc_cheque 
sao, respectivamente, apresentados a seguir: 
robvar perc_cartao, by(classesocial) 
robvar perc_cheque, by(classesocial) 

As Figuras 3.6 e 3.7 apresentam o passo a passo para elabora^ao do teste para cada 
variavel por meio das janelas de comando. 
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Stata/SE 12.0 - C:\Bases de dadostexemplomanova.dta - [Results] 




v^wble* t 9 x 

Variable labd 

cod 

perc.cartao knee de crddRo rw 

perc.chequc tm*e de crerfto n 

dassesociat class* social 


Properties 




Figura 3.6 Jane las para aplicagao do teste de Levene 
para a variavel perc_cartao. 



Figura 3.7 Janela para aplicagao do teste de Levene para a variavel perc_cheque. 
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RESULTADOS 3.8 Teste de Levene para a variavel perc_cheque. 


. robvar perccheque, by(classesocial) 


classesocia 

i l 

Summary of perc_cheque 
Mean Std. Dev. 

Freq. 

a | 

.46132429 

.18879981 


27 

b 1 

.52193671 

.21979555 


46 

c 1 

.49294528 

.20151509 


81 

Total | 

.49606112 

.20474063 


154 

WO = 1.1281371 

df (2, 

151) Pr > 

F = 

0.32634777 

W50 = 1.2081072 

df (2, 

151) Pr > 

F = 

0.30163325 

W10 = 1.1449259 

df (2, 

151) Pr > 

F = 

0.32099441 


_ / 

O resultado do teste de Levene, por sua vez, indica, com nivel de significancia de 5%, 
que apenas o percentual de utiliza^ao do limite de credito do cheque especial atende 
ao pressuposto da homogeneidade de variancia. Ou seja, a outra variavel dependente 
(perc_cartao ) somente observa esse pressuposto se o nivel de significancia for 1%. Neste 
sentido, cabera ao pesquisador avaliar o nivel de significancia a ser adotado no estudo 
e os respectivos impactos. Para fins didaticos, e tendo em vista os resultados do teste de 
Box's M, sera dada sequencia a analise dos outros resultados. 

Para a obten^ao dos resultados dos testes de medias (Pillai's Trace, Wilks’ Lambda, 
Hotelling's Trace e Roy's Largest Root), por sua vez, basta digitar o seguinte comando: 

manova perc_cartao perc_cheque = classesocial 

A Figura 3.8 apresenta o passo a passo para elabora^ao dos testes por meio das janelas 
de comando. 

< > 

RESULTADOS 3.9 Testes de medias. 


. manova perc_cartao perccheque = classesocial 






Number of < 

obs 

= 

154 





W 

- Wilks’ 

lambda 

L - 

Lawley-Hotelling 

trace 


P 

= Pillai 

’ s 

trace 

R = 

Roy's largest root 


Source | Statistic 


df 

F(df1, 

df2) - 

F 

Prob>F 


classesoc-1 W 

0.9771 


2 

4.0 

300.0 

0.87 

0.4806 

e 

P 

0.0230 



4.0 

302.0 

0.88 

0.4771 

a 

1 L 

0.0233 



4.0 

298.0 

0.87 

0.4841 

a 

R 

0.0132 



2.0 

151.0 

1.00 

0.3702 

u 

1 — 

Residual | 



151 






Total | 



153 






e 

= exact. 

a 

= approximate. 

u = upper 

bound 

[ on F 
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Figura 3.8 Jane I as para aplicaqao dos testes 
de medias (Pillai's Trace > Wilks' Lambda, Ho¬ 
telling's Trace e Roy's Largest Root). 


Os testes de medias (Pillai's Trace, Wilks’ Lambda, Hotelling's Trace e Roy's Largest 
Root) sugerem a nao rejei^ao da hipotese nula de igualdade de medias entre as classes 
sociais em rela^ao aos percentuais de utiliza^ao do limite de credito concedido no 
cartao de credito e no cheque especial, indicando adequa^ao da politica de credito da 
institui^ao financeira em rela^ao ao nao beneficiamento de qualquer classe social em 
detrimento de outras. 

Os resultados apresentados a seguir sao coerentes com o que ja foi discutido, apontan- 
do para a nao existence de elementos que levem a rejei^ao da hipotese nula de igualdade 
de medias, com nivel de significance de 5%, entre as classes sociais. 
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foreach vname in perc_cartao perc_cheque { 
anova ‘vname’ classesocial 
} 

f > 

RESULTADOS 3.10 ANOVA - Teste F para a variavel classesocial. 


foreach vname in perc cartao perc cheque {" 

2 . 

. anova “vname 1 classesocial 
3. 

• } 


Number of obs = 154 R-squared = 0.0130 

Root MSE = .270294 Adj R-squared = -0.0001 


Source | 

Partial SS 

df 

MS 

F 

Prob > F 

Model | 

.145471268 

2 

.072735634 

1.00 

0.3719 

classesoc~l 

.145471268 

2 

.072735634 

1.00 

0.3719 

Residual 

11.0319013 

151 

.073058949 



Total | 

11.1773725 

153 

.073054722 




Number of obs = 

154 R-squared 

= 0.0100 


Root MSE 

= .205059 Adj 

R-squared 

= -0.0031 

Source | 

Partial SS 

df 

MS 

F 

Prob > F 

Model | 

.064164975 

2 

.032082487 

0.76 

0.4681 

classesoc-1 | 

.064164975 

2 

.032082487 

0.76 

0.4681 

Residual | 

6.34939981 

151 

.042049005 



Total | 

6.41356479 

153 

.041918724 




_ / 


Para a realiza^ao de testes post-hoc, avaliando possiveis diferen^as entre os grupos, 
e necessario utilizar o comando manovatest, showorder, para determinar a ordem 
em que os elementos estao dispostos na matriz. Este comando deve ser aplicado apos o 
comando manova. E necessario que se conhe^a a ordem em que os elementos estao 
dispostos na matriz, a fim de que seja possivel prosseguir com a compara^ao de medias. 
manovatest, showorder 


f > 

RESULTADOS 3.11 Definindo a ordem em que os elementos estao na matriz. 


. manovatest, showorder 

Order of columns in the design matrix 
Is (classesocial==l) 

2: (classesocial==2) 

3: (classesocial==3) 

4: cons 
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Podemos come^ar comparando a classe social 1 com a media das classes sociais 2 
e 3. A hipotese e que as medias dos dois grupos sejam iguais. O resultado anterior- 
mente apresentado indica que o quarto elemento da matriz e a constante, ou seja, 
sera estabelecido como zero no comando matrix a seguir. Uma vez criada a matriz 
(que denominaremos cl), pode-se utilizar o comando manovatest para testa-la. 
matrix cl = (2,-1,-1,0) 
manovatest, test(cl) 


f > 

RESULTADOS 3.12 Testando a classe social 1 em relagao as demais. 


. matrix cl=(2,-1,-1,0) 







. manovatest, test(cl) 







Test constraint 







(1) 2*1.classesocial 

- 2. 

,classesocial - 3 

.classesocial = 0 




W 

= Wilks' lambda 

L = 

Lawley-Hotelling trace 



P 

= Pillai's trace 

R = 

Roy's largest root 


Source 

| Statistic df 

F(df1, 

df 2) = 

F Prob>F 


manovatest 

1 w 

0.9887 1 

2.0 

150.0 

0.86 0.4254 

e 


1 P 

0.0113 

2.0 

150.0 

0.86 0.4254 

e 


1 L 

0.0115 

2.0 

150.0 

0.86 0.4254 

e 


1 R 

0.0115 

2.0 

150.0 

0.86 0.4254 

e 

Residual 


151 






e 

= exact, a = app: 

roximate, 

, u = upper 

bound on F 



v_/ 

Os resultados indicam que a classe social 1 nao diferiu significativamente das classes 
sociais 2 e 3. Poder-se-ia desejar comparar duas classes sociais, tais como a 2 e a 3. No- 
vamente, e necessario que se crie uma nova matriz (chamada de c2 no nosso exemplo) 
para a realiza^ao dessa compara^ao. 

matrix c2 = (0,1,-1,0) 
manovatest, test(c2) 


/-\ 

RESULTADOS 3.13 Comparando as classes sociais 2 e 3. 

. matrix c2= (0,1,-1,0) 

. manovatest, test(c2) 

Test constraint 


Lassesocial - 

3 

.classesocial 

= 0 







W 

= Wilks' 

lambda 

L = 

Lawley-Hotelling trace 




P 

= Pillai' 

s 

trace 

R = 

Roy's largest root 


Source 

1 

Statistic 


df 

F(df1, 

df 2) = 

F Prob>F 


manovatest 


W 

0.9887 


1 

2.0 

150.0 

0.86 0.4264 

e 



P 

0.0113 



2.0 

150.0 

0.86 0.4264 

e 



L 

0.0114 



2.0 

150.0 

0.86 0.4264 

e 



R 

0.0114 



2.0 

150.0 

0.86 0.4264 

e 

Residual 

. 

1 




151 







e 

= exact. 

a 

= approximate, 

, u = upper 

bound on F 



_/ 
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Novamente nao se identificaram diferengas significativas entre os grupos analisados. 
A seguir sao apresentadas as medias marginais estimadas. 

margins classesocial, predict(equation( perc_cartao)) 


< > 
RESULTADOS 3.14 Medias marginais estimadas para a variavel perc_ 
cartao. 


. margins classesocial, predict(equation( perc cartao)) 

Adjusted predictions Number of obs = 154 

Expression : Linear prediction, predict(equation( perc_cartao)) 



Margin 

Delta-method 
Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

classesocial 

1 

2 

3 

.4642853 

.4844967 

.5370852 

.0520181 

.0398527 

.0300327 

8.93 

12.16 

17.88 

0.000 

0.000 

0.000 

.3623316 

.4063868 

.4782223 

.5662389 

.5626065 

.5959482 



_7 


margins classesocial, predict(equation( perc_cheque)) 


f ■> 

RESULTADOS 3.15 Medias marginais estimadas para a variavel perc_ 
cheque. 


. margins classesocial, predict(equation( perc cheque)) 

Adjusted predictions Number of obs = 154 

Expression : Linear prediction, predict(equation( perccheque)) 


1 

Margin 

Delta-method 
Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

classesocial | 

1 

.4613243 

.0394635 

11.69 

0.000 

.3839772 

.5386714 

2 

.5219367 

.0302342 

17.26 

0.000 

.4626787 

.5811947 

3 1 

.4929453 

.0227843 

21.64 

0.000 

.4482889 

.5376017 
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3.6. EXERCICIOS 

1. Um investidor possui 13 ativos que lhe renderam os seguintes retornos: 

8 , 4 % 4 , 6 % 11 , 9 % 15 , 3 % 7 , 6 % 12 , 2 % 9 , 0 % 15 , 6 % 14 , 5 % 6 , 0 % 18 , 8 % 9 , 1 % 18 , 1 % 


Investimentos com perfis de risco semelhantes lhe renderiam cerca de 12%. Dessa 
maneira, calcule a media da rentabilidade e avalie se esta estadsdcamente abaixo ou acima 
da rentabilidade media oferecida pelo mercado. 

2. O arquivo endividamento.dta contem o endividamento de longo prazo das mil 
maiores empresas de capital aberto do pais para o ano de 2007, sendo estas empresas 
segregadas em tres ramos de atua^ao (comercio, industria ou servi^os). Com base 
nesse arquivo, responda as seguintes questoes: 

a. Existem dados faltantes? Exclua esses casos. 

b. Qual a media do endividamento? 

c. Teste a hipotese de que a media da variavel endividamento_lp e igual a 20% a partir 
de um teste bicaudal. Reporte o p-valor. Devemos rejeitar a hipotese a um nivel 
de 5% de significancia? 

d. A variavel ramo_atividade contem informa^oes sobre a qual ramo de atividade a 
empresa pertence (comercio, industria ou servi^os). Teste a hipotese nula padrao 
em um teste bicaudal de que o endividamento de longo prazo das empresas do 
setor de comercio e estadsdcamente igual ao endividamento do setor de servi^os. 
Em um nivel de 10% de significancia, a hipotese nula e rejeitada? E em um nivel 
de 5% de significancia? 

e. Reporte a diferen^a na media dos grupos. 

f. O teste t pode ser estimado pressupondo variancias equivalentes ou variancias dife- 
rentes entre os grupos. Qual dos dois testes e mais adequado para a amostra estudada? 

3. Ainda por meio do arquivo endividamento.dta, pede-se: 

a. Qual e o numero total de observa^oes de cada grupo (ramo de atividade)? Qual 
dos grupos apresenta a menor e a maior media? 

b. Realize a analise da variancia para os dados. Quais sao os graus de liberdade para 
o numerador da estatistica F? E do denominador? 

c. Qual e o p-valor para a hipotese nula de que todas as medias sao estadsdcamente 
iguais? A hipotese nula e rejeitada a um nivel de 10%? E a 2%? 

4. O arquivo tv.dta contem dados obtidos de uma empresa cujo objetivo consiste em avaHar 
a preferencia do consumidor no momento de aquisi^ao de um aparelho de televisao, 
com base no pre^o e na qualidade do suporte tecnico, a partir de variaveis referentes a 
classe social e sexo. Com base nessas informa^oes, elabore e interprete a MANOVA. 


r Al» 


/, 


Regressao Linear 


A regressao linear e a tecnica que busca estimar o valor esperado para uma variavel, 
denominada dependente, a partir da varia^ao de outra(s) variavel(is), denomina- 
da(s) explicativa(s), considerando a variavel dependente como uma fun^ao linear 
da(s) explicativa(s). 

Neste capitulo apresentaremos os principais comandos para a estima^ao de uma 
regressao linear, utilizando tanto a regressao simples quanto a regressao multipla. 
Abordaremos, tambem, a analise dos residuos e a utiliza^ao da tecnica para a previsao 
de valores. 

Usaremos em nossos exemplos a base de dados cidades.dta. A referida base pos- 
sui 153 observa^oes sobre valores medios simulados sobre o censo de 153 cidades. 
E composta pelas variaveis descritas no Quadro 4.1. 


Quadro 4.1 Variaveis que compoem a base de dados cidades.dta 


Variavel 

Descrigao 

Tipo 

mun 

Codigo de identifica^ao do municipio 

Qualitativa 

regiao 

Regiao (em total de tres regioes) 

Qualitativa 

me dp op 

Idade mediana da populagao 

Quantitativa 

mat 

Taxa de matrimonio (razao do numero de matrimonios 
por 100 mil habitantes) 

Quantitativa 

div 

Taxa de divorcio (razao do numero de divorcios por 

100 mil habitantes) 

Quantitativa 


Na janela de comandos do aplicativo Stata®, solicitaremos a abertura da base de 
dados cidades.dta, utilizando o comando use. 

Na janela de comandos digitaremos o seguinte (lembre-se de informar o endere^o 
completo de localiza^ao do arquivo cidades.dta): 


f > 

RESULTADOS 4.1 Abertura do arquivo cidades.dta. 


I. use "cidades.dta" 

| (Dados simulados sobre municipios) 

_z 
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4.1. REGRESSAO LINEAR SIMPLES 

Na regressao linear simples temos apenas uma variavel explicativa. O modelo regres¬ 
sive) simples se assemelha a uma funqao do primeiro grau, conforme apresentamos no 
Quadro 4.2. 


Quadro 4.2 Modelo de regressao linear simples 

y = a + /5x + e [Equagao 4.1] 

Em que: 

y: e a variavel dependente; 
rea variavel explicadva; 
a e (3: sao os parametros da regressao; e 
£: termo de erro da regressao. 


No Stata®, para estimar uma regressao linear devemos utilizar o comando regress 
(Sintaxe 4.1). 


SINTAXE 4.1 Comando regress. 

regress depvar indepvars [, nocons] [, beta] [, level (#)] 

Em que: 

• depvar: Nome da variavel dependente. 

• indepvars: Lista de variaveis explicativas. 

• nocons: Op^ao a ser utilizada quando nao se deseja a presen^a da constante no modelo 
regressivo. 

• beta: Op^ao que exibe os coeficientes padronizados. 

• level: Estabelece o nivel de confian<;a a ser utilizado. O padrao e 95%. 


O estimador utilizado pelo comando regress e o estimador dos minimos quadrados 

ordinarios que, para uma regressao simples, possui os seguintes pressupostos: 

1. A variavel dependente deve apresentar distribui^ao normal. 

2. Os residuos estimados devem possuir distribui^ao normal. 

3. Nao deve haver correla^ao elevada entre os residuos e a variavel explicativa (residuos 
homocedasticos). 

4. Caso estejamos lidando com uma serie temporal (ou seja, as observa^oes variam em 
fun^ao do tempo), os residuos nao poderao ser autocorrelacionados (ausencia de 
autocorrela^ao dos residuos). 
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O poder explicativo de um modelo regressive* e dado pela estatistica denominada 
R 2 . O R 2 representa o percentual de variancia da variavel dependente captado pelas 
variaveis explicativas. No caso da regressao linear simples, o R 2 representa a correla^ao 
simples ao quadrado entre a variavel dependente e a explicativa (FAVERO et al ., 
2009). 

Para verificar a significancia conjunta das variaveis explicativas e utilizado o teste F, 
cuja estatistica possui distribuigao F com k-1 graus de liberdade (g.l.) no numerador 
e n-k g.l. no denominador. O numero de parametros estimados e representado por 
k, enquanto n compreende o numero total de observa^oes. Na regressao linear sim¬ 
ples o numero de parametros sera sempre dois. As hipoteses do teste sao: H Q : todos 
os parametros (3 sao estatisticamente iguais a zero, e Hp ha pelo menos um parametro 
j8 estatisticamente diferente de zero. 

Existe ainda o teste de significancia individual que, na regressao por minimos qua- 
drados, e o teste t. Este teste e utilizado para verificar se o parametro estimado pode ser 
considerado estatisticamente significativo ou nao, em um determinado nivel de signifi¬ 
cancia. Na regressao linear simples sao realizados dois testes t: um para o intercepto (cujas 
hipoteses sao: H Q \ a = 0eH 1 :a^0)e outro para o coeficiente da variavel explicativa 
(cujas hipoteses sao: H: j3 = 0 e Hp j3 ^ 0). 

Na proxima se^ao passaremos a estimar os parametros utilizando uma regressao 
linear simples. 


4.2. ESTIMAgAO DOS PARAMETROS 

A partir da base de dados em uso neste capitulo, imaginemos a seguinte situagao: O 
governo esta desenvolvendo um estudo sobre o numero de divorcios visando capacitar 
a estrutura judiciaria no sentido de prestar melhores servigos a popula^ao. Para resolver 
tal questao, utiliza como variavel explicativa a taxa de matrimonios. 

Primeiramente, iremos analisar se as variaveis div e mat estao correlacionadas, a fim 
de verificarmos a possibilidade de se utilizar a tecnica de regressao linear simples. Para 
tanto, usaremos o seguinte comando: 

pwcorr div mat, sig 

De acordo com o resultado apresentado (Resultados 4.2), as variaveis estao fortemente 
correlacionadas, o que e um indicativo de que seja possivel estabelecer uma relagao linear 
entre ambas. 

Todavia, destacamos que o objetivo desse exemplo e meramente didatico e nao es- 
tamos adentrando em outro uso bastante comum da regressao linear, que e a avalia^ao da 
rela^ao de causa e efeito, geralmente embasada em uma teoria subjacente. No exemplo, a 
regressao esta sendo realizada com o objetivo de se estabelecer uma rela^ao linear entre 
duas variaveis, sem, contudo, descrever uma rela^ao de causa e efeito. 
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Em rela^ao a correla^ao, podemos solicitar o comando pwcorr por meio da barra 
de menus, selecionando as seguintes op^oes: Statistics Summaries, tables, and tests 
Summary and descriptive statistics ~} Pairwise correlations. Aparecera uma janela, conforme 
a Figura 4.1. 



Figura 4.1 Janela de configuraqoes do comando pwcorr. 


Para estimarmos a regressao na qual a variavel dependente e a taxa de divorcio e a 
explicativa, a taxa de matrimonio, digitaremos o seguinte comando: 

regress div mat 

Na primeira parte do resultado da regressao estimada sao evidenciados, principalmen- 
te, o numero de observa^oes, a estatistica e o p-valor do teste F e o R 2 . Na segunda parte, 
sao exibidos os parametros estimados, os erros-padrao de cada parametro, as estatisticas 
e os p-valores do teste t e os intervalos de confian^a (Resultados 4.3). 





















Regressao Linear 103 


--- ^ 

RESULTADOS 4.3 Resultados da regressao linear simples. 


. regress div mat 


Source 

1 

ss 

df 

MS 


Number of obs 
F( 1, 151) 

Prob > F 

R-squared 

Adj R-squared 
Root MSE 

= 

153 

999.76 

0.0000 

0.8688 

0.8679 

.94008 

Model 

Residual 


883.547715 

133.447686 

1 

151 

883.547715 

.883759511 


= 

Total 

i 

1016.9954 

152 

6.69075921 


= 

div 

i 

Coef. 

Std. 

Err. t 

p>it| 

[95% Conf. 

Interval] 

mat 

cons 


.3436585 

1.13232 

.0108687 31.62 

.6025058 1.88 

0.000 

0.062 

.322184 
- .0581099 

2 

3651329 

.322751 



Para acessar o comando regress, por intermedio da barra de menus, devemos clicar 
nas seguintes opgoes: Statistics Linear models and related Linear regression. Surgira uma 
janela, conforme a Figura 4.2. 

Na proxima se^ao passaremos a analisar os resultados da regressao linear simples. 



Figura 4.2 Janela de configuraqoes do comando regress. 

4.3. RESULTADOS DA REGRESSAO LINEAR SIMPLES 

Na primeira parte dos Resultados 4.3, notamos que foram utilizadas 153 observa^oes 
para a estima^ao dos dois parametros. O R 2 , de 0,869, equivale ao quadrado da correlagao 
linear entre as duas variaveis (0,9321 2 = 0,869). Em outras palavras, 86,9% da variagao 
do comportamento de div pode ser explicado pelo comportamento de mat. 
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Todavia, apenas uma estatistica R 2 com um alto valor nao e suficiente para atestarmos 
sobre a significancia da regressao estimada. O teste F resultou em uma estatistica de 999,76 
que, em uma distribui^ao F 1 (graus de liberdade do numerador: k-1 = 2-1 = 1; graus 
de liberdade do denominador: n-k = 153-2 = 151), retorna um p-valor inferior a 0,001. 

Tal resultado nos leva a rejei^ao da hipotese nula de que todos os parametros sejam 
estatisticamente iguais a zero, o que, no caso da regressao linear simples, representa que 
o coeficiente da variavel explicativa possui significancia estatistica. 

Em relacao ao teste t, verificamos que o coeficiente da variavel explicativa e considerado 
estatisticamente significativo, pois, com um p-valor inferior a 0,001, rejeita-se a hipotese de 
que esse parametro seja igual a zero, diferentemente do que acontece com o intercepto, cujo 
p-valor e de 0,062. Uma propriedade em relacao a regressao linear simples e que a estatistica 
t do coeficiente da variavel explicativa ao quadrado e igual a estatistica F [(31,62) 2 = 999,76]. 
Em todas as analises realizadas, utilizamos o nivel de significancia de 5%. 

De acordo com o modelo estimado, a cada altera^ao em uma unidade na taxa de 
matrimonio ocorre 0,343 de varia^ao na taxa de divorcio. 

4.4. VALORES PREVISTOS E RESIDUOS 

Antes de fazermos qualquer inferencia com os resultados de uma regressao, seja ela 
simples ou multipla, precisamos nos certificar de que os pressupostos da tecnica sao 
atendidos. 

Dessa forma, precisamos realizar alguns testes. No nosso exemplo, verificaremos se os 
residuos possuem distribui^ao normal e se sao homocedasticos. Inicialmente, utilizaremos 
o comando predict para a geragao da serie de residuos (Sintaxe 4.2). 

SINTAXE 4.2 Comando predict, 

predict newvar [, residual] [, rstandard] [, xb] 

Em que: 

• newvar: Nome da nova variavel que armazenara os valores previstos. 

• residual: Op<;ao a ser utilizada para a geragao dos residuos da regressao. 

• rstandard: Opgao a ser utilizada para a geragao dos residuos padronizados da regressao. 

• xb: Op^ao a ser utilizada para a geragao dos valores estimados da variavel dependente. 

Na janela de comandos do Stata®, informaremos o seguinte: 

predict resid, residual 

f > 

RESULTADOS 4.4 Execu^ao do comando predict com a op^ao residual. 

S_ J 
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Figura 4.3 Janela de configuraqoes do comando predict. 


Esse comando pode ser acessado via barra de menus, por meio dos seguintes passos: 
Statistics Postestimation Predictions, residuals, etc. Ira surgir uma janela, conforme 
a Figura 4.3. 

Apos gerarmos a variavel resid , que contem os residuos da regressao, iremos solicitar 
o teste Shapiro-Francia para verificar se a mesma possui uma distribui^ao normal. 
Utilizaremos o seguinte comando: 

sfrancia resid 


RESULTADOS 4.5 Resultado do teste de normalidade para a variavel 
resid. 


. sfrancia resid 






Shapiro- 

Francia W' 

test for 

normal data 

Variable | 

Obs 

W' 

V' 

z Prob>z 

resid | 

153 0 

.98886 

1.445 

0.748 0.22730 


De acordo com o resultado do teste Shapiro-Francia, verificamos, com probabili- 
dade de 0,22, que os residuos possuem uma distribui^ao normal, nao havendo rejeigao 
da hipotese nula (Resultados 4.5). 

A variavel dependente div tambem apresenta distribuigao normal, com probabilidade 
de 0,28. O resultado do teste nao sera aqui apresentado, mas o pesquisador pode obte-lo 
por meio da aplica^ao do comando sfrancia div. 
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Apenas para relembrar, o teste Shapiro-Francia pode ser acessado mediante a sele^ao 
das seguintes op^oes: Statistics ~} Summaries, tables, and tests Distributional plots and tests 
Shapiro-Francia normality test. Poderiam ter sido usados outros testes de normalidade, 
a escolha do pesquisador, conforme vimos no Capitulo 2. 

Para verificarmos a homocedasticidade dos residuos, ou seja, se os mesmos possuem 
variancia constante, utilizaremos o teste Breusch-Pagan por meio do comando estat 
hettest (Sintaxe 4.3) (nas versoes mais antigas do Stata®, apenas hettest). 


SINTAXE4.3 Comando estat hettest. 

estat hettest [varlist] 

Em que: 

• varlist: Lista contendo as variaveis explicativas que serao utilizadas no computo da es- 
tatistica do teste. Caso nao seja informada nenhuma variavel, o Stata® utilizara as variaveis 
explicativas da ultima regressao estimada. 


O teste Breusch-Pagan possui as seguintes hipoteses: H Q : os residuos sao homo- 
cedasticos, e Hp os residuos sao heterocedasticos. Informaremos, na janela de comandos, 
o seguinte: 

estat hettest 

Com um p-valor superior a 0,17, verificamos que a hipotese nula do teste Breusch- 
Pagan nao foi rejeitada e, assim sendo, os residuos sao considerados homocedasticos 
(Resultados 4.6). 


/-\ 

RESULTADOS 4.6 Resultado do teste Breusch-Pagan. 


. estat hettest 

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity 
Hos Constant variance 
Variables: fitted values of div 

chi2(1) = 1.85 

Prob > chi2 = 0.1733 

s_> 


Sendo a variavel dependente normal e os residuos normais e homocedasticos, verifi¬ 
camos que todos os pressupostos do estimador dos minimos quadrados foram respeitados 
para a regressao linear simples e, portanto, os resultados estimados sao validos e possiveis 
para utiliza^ao em inferencias. 
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Para executarmos o comando estat hettest, utilizando a barra de menus, devemos 
clicar nas seguintes op^oes: Statistics Postestimation ~} Reports and statistics. Aparecera 
uma janela, conforme a Figura 4.4. 



Figura 4.4 Janela de configuragdes do comando estat selecionando-se a opgao hettest. 


Os valores estimados para a variavel dependente ( Y ) podem ser obtidos, inclusive 
para cada observa^ao da amostra, por meio do comando predict, conforme demons- 
trado a seguir: 

predict estimat, xb 


< > 

RESULTADOS 4.7 Execu^ao do comando predict com a op^ao xb. 

_ > 


O Stata® gerara uma serie de observacoes, utilizando os parametros da ultima regres- 
sao estimada. Mais adiante, faremos uso dos valores estimados para a variavel dependente. 

Para acessar o comando anteriormente executado, por intermedio da barra de menus, 
sera necessario acessar as seguintes opcoes: Statistics Postestimation Predictions , residuals , 
etc. Sera exibida uma janela, conforme a Figura 4.5. 




















108 Metodos Quantitativos com Stata' 


ELSEVIER 



Figura 4.5 Janela de configuraqoes do comando predict. 

4.5. GRAFICOSETABELAS 

Podem ser utilizados os graficos que mostram a rela^ao entre as duas variaveis para 
melhor entender os procedimentos realizados durante a estima^ao da regressao. 

O primeiro grafico que iremos analisar trata-se do grafico de dispersao utilizando 
as variaveis dependente e explicativa. Conforme vimos no Capitulo 2, um grafico de 
dispersao pode ser gerado utilizando-se o comando twoway scatter. 

Continuando com o nosso exemplo de regressao linear simples, iremos gerar o grafico 
de dispersao entre as variaveis div e mat (Figura 4.6). Para tanto, informaremos na janela 
de comandos do Stata® o seguinte: 





—i-1-1-1-1- 

40 50 60 70 80 

Taxa de matrimonio 


Figura 4.6 Grafico de dispersao entre as variaveis div e mat. 
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twoway scatter div mat 


RESULTADOS 4.8 Gerando o grafico de dispersao. 

\ 

|| . twoway scatter div mat || 


J 


Observamos no grafico de dispersao alguns pontos mais isolados. Iremos combinar o 
grafico de dispersao com o grafico de linha, para verificarmos visualmente o resultado da 
regressao estimada (Figura 4.7). Usaremos, novamente, o comando twoway combinando 
os graficos scatter e line. Devemos digitar o seguinte comando: 



Figura 4.7 Grafico de dispersao entre as variaveis div e mat e de linha entre as variaveis estimat e mat. 
twoway (scatter div mat) (line estimat mat, sort) 


r 


\ 


RESULTADOS 4.9 Gerando o grafico de dispersao e de linha. 



|| . twoway (scatter div mat) (line estimat mat, sort) 

| 



> 
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A partir da analise grafica entre a dispersao das variaveis observadas e a reta estimada 
da regressao, verificamos a presen^a de alguns pontos dispersos. 

Caso desejassemos gerar o grafico, a partir da barra de menus, deveriamos selecionar 
as seguintes op^oes: Graphics ~} Twoway graph (scatter ; line, etc.). Sera exibida uma janela, 
conforme as Figuras 4.8 (scatter) e 4.9 (line). 




Figura 4.8 Janela de configuraqoes do comando twoway - adigao do primeiro grafico (scatterj. 

4.6. REGRESSAO MULTIPLA 

Na regressao linear multipla temos mais de uma variavel explicativa (Quadro 4.3). 
Para estimar uma regressao linear multipla no Stata® devemos, tambem, utilizar o 
comando regress. 

O estimador utilizado pelo comando regress e o estimador dos minimos quadrados 
ordinarios. No caso de uma regressao linear multipla, esse estimador possui os seguintes 
pressupostos: 

1. A variavel dependente deve apresentar distribui^ao normal. 

2. Os residuos estimados devem possuir distribui^ao normal. 

3. Nao devem haver correlates elevadas entre os residuos e cada uma das variaveis 
explicativas (residuos homocedasticos). 
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Figura 4.9 Janela de configurates do comando twoway - adiqao do segundo grafico (linej. 
Quadro 4.3 Modelo de regressao linear multipla 

y = a + /5 l x i + p 2 x 2 +... + P k x k + £ [Equafao 4.2] 

Em que: 

y: e a variavel dependente; 
x.: sao as variaveis explicativas, com i— 1,2, 
a e 13 : sao os parametros da regressao; e 
£: termo de erro da regressao. 


4. Nao deve haver correlates elevadas entre as variaveis explicativas (ausencia de 
multicolinearidade). 

5. Caso estejamos lidando com uma serie temporal (ou seja, as observa^oes variam em 
fun^ao do tempo), os residuos nao poderao ser autocorrelacionados (ausencia de 
autocorrela^ao dos residuos). 

O poder explicativo de um modelo regressivo e dado pela estatistica R 2 . Porem, 
na regressao linear multipla pode tambem ser defmido o R 2 Ajustado. Como o R 2 
sempre aumentara, mesmo que minimamente, quando uma nova variavel e adicionada 
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ao modelo, o que ocorrera quando deixarmos de utilizar a regressao linear simples 
para fazer uso da regressao multipla, deve-se ponderar o seu calculo pelo numero 
de graus de liberdade do modelo, a fim de que o mesmo possa ser comparado com 
modelos com diferentes graus de liberdade. Esta pondera^ao e feita no calculo do 
R 2 Ajustado. 

Para verificarmos a significancia conjunta das variaveis explicativas, e utilizado o 
teste F, cujas hipoteses sao: H Q : todos os parametros /3 sao estatisticamente iguais a zero, 
e H: ha pelo menos um parametro /3 estatisticamente diferente de zero. O teste teo 
teste de significancia individual. Na regressao linear multipla sao realizados os testes t 
considerando as seguintes hipoteses: (i) para o intercepto: H Q : a = 0 e Hp a ^ 0; e (ii) 
para os coeficientes das variaveis explicativas: H Q \ j8 = 0 e Hp /3 ^ 0. 

Voltando ao nosso exemplo referente a regressao linear simples e utilizando 
outras variaveis contidas na base de dados, vamos passar para o modelo de regressao 
multipla. 

Duas variaveis ainda nao utilizadas nos chamam a aten^ao: medpop e region. A primeira 
compreende a mediana da idade da popula^ao de cada municipio, sendo, portanto, 
quantitativa, e a segunda trata da regiao onde o municipio esta localizado, sendo uma 
variavel categorica (qualitativa). 

Primeiramente, iremos analisar se as variaveis div, mat e medpop estao correlacio- 
nadas para, entao, verificarmos a possibilidade de utilizar a tecnica de regressao linear. 
Lembremos que e importante que as variaveis explicativas estejam correlacionadas 
com a dependente, mas nao fortemente correlacionadas entre si. Para tanto, usaremos 
o seguinte comando: 

pwcorr div mat medpop, sig 
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Segundo as correlates e os niveis de significance apresentados nos Resultados 4.10, 
verificamos que: (i) nao ha correla^ao significativa entre as duas variaveis explicativas, 
o que nao geraria problemas de multicolinearidade; e (ii) todavia, nao ha correla^ao 
significativa, tambem, entre a variavel medpop e a variavel dependente, demonstrando 
nao haver uma relagao linear entre essas variaveis. 

Mesmo diante da ausencia de rela^ao linear entre as variaveis div e medpop , para 
fms didaticos iremos incluir a ultima variavel no modelo de regressao simples, trans- 
formando-o em uma regressao multipla. 

Iremos adicionar na regressao a variavel regiao, que e uma variavel qualitativa. Como 
nao se pode adicionar uma variavel categorica diretamente em uma regressao, pois 
todas as variaveis explicativas precisam ser metricas, podemos utilizar variaveis dummies 
oriundas da variavel categorica original. No Stata® podemos utilizar o prefixo i. para 
que sejam inseridas automaticamente variaveis dummies criadas a partir de uma variavel 
categorica. 

Agora, iremos digitar o seguinte comando: 

regress div mat medpop i.regiao 


/ --- \ 

RESULTADOS 4.11 Resultados da regressao linear multipla. 


. regress div 

mat medpop i. 

.regiao 






Source 

1 SS 

df 


MS 


Number of obs 

= 153 

-+- 





F( 4, 148) 

= 1727.78 

Model 

995.673292 

4 

248. 

.918323 


Prob > F 

= 0.0000 

Residual 

21.3221086 

148 

.144068301 


R-squared 

= 0.9790 

--+--- 





Adj R-squared 

= 0.9785 

Total 

| 1016.9954 

152 

6.69075921 


Root MSE 

= .37956 

div 

Coef. 

Std. 

Err. 

t 

p>|t| 

[95% Conf. 

Interval] 

mat 

.3880443 

.0046881 

82.77 

0.000 

.3787801 

.3973085 

medpop 

.0061801 

.0086095 

0.72 

0.474 

-.0108332 

.0231934 

regiao 








2 

1.002185 

.0756387 

13.25 

0.000 

.8527135 

1.151656 

3 

-1.196083 

.0791239 

-15.12 

0.000 

-1.352442 

-1.039725 

_cons 

-1.720251 

.6058454 

i 

to 

CD 

0.005 

-2.917476 

-.5230266 



V_/ 


Antes de analisarmos os resultados estimados pela regressao, vamos realizar os testes 
necessarios para verificar se os pressupostos da regressao foram respeitados. 

Come^aremos com os testes para detec^ao da normalidade e da homocedasticidade 
dos residuos. Utilizaremos os seguintes comandos: 

predict resl, residual 
sfrancia resl 
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estat hettest 


-\ 

RESULTADOS 4.12 Testes acessorios para a regressao linear multipla. 

. predict real, residual 
. sfrancia real 


Shapiro-Francia W' test for normal data 


Variable | 

Obs 

W' 

V' 

z 

Prob>z 

real | 

153 

0.98951 

1.361 

0.626 

0.26558 


. estat hettest 

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity 
Hot Constant variance 
Variables: fitted values of div 

chi2(1) = 0.21 

Prob > chi2 = 0.6469 

V_> 


Os resultados dos testes Shapiro-Francia (normalidade) e Breusch-Pagan (heterocedas- 
ticidade) indicam que os residuos sao normais e homocedasticos, sendo as respectivas 
hipoteses nulas nao rejeitadas (Resultados 4.12). 

Alem da normalidade e da homocedasticidade dos residuos, na regressao linear 
multipla precisamos verificar se ha problemas de multicolinearidade, ou seja, as variaveis 
explicativas possuem fortes correlates entre si. Nao ha um teste especifico, porem, uma 
estatistica bastante utilizada e o VIF (variance inflation factor ou fator de infla^ao da varian- 
cia). Segundo Gujarati (2011), umVIF acima de 10 e indicativo de multicolinearidade. 
Favero et al. (2009), ao serem ate mais rigorosos, ja argumentam que umVIF acima de 
5 tambem pode causar problemas de multicolinearidade. 

No Stata® podemos visualizar a estatistica VIF por intermedio do comando estat vif 
(Sintaxe 4.4) (nas versoes mais antigas, apenas vif). 


SINTAXE 4.4 Comando estat vif. 

estat vif [, uncentered] 

Em que: 

• uncentered: Op^ao que podera ser utilizada quando for omitida a constante da regressao. 
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Para verificar se ha problemas de multicolinearidade, iremos solicitar as estatisticas 
VIF por meio do seguinte comando: 

estat vif 



Observamos que todas as estatisticas VIF foram inferiores a 5 (Resultados 4.13).Assim, 
concluimos que nao ha problemas de multicolinearidade e podemos passar a analise dos 
resultados da regressao multipla (Resultados 4.11). 

O R 2 , de 0,979, e superior ao da regressao linear simples, conforme ja discutido. 

O teste F resultou em uma estatistica de 1.727,78 que, em uma distribuigao F 414g 
(graus de liberdade do numerador: k-1 = 5-1 = 4; graus de liberdade do denominador: 
n-k = 153-5 = 148), retornou um p-valor inferior a 0,001. Esse resultado nos leva a 
rejeigao da hipotese nula de que todos os parametros sejam estatisticamente iguais a 
zero, ou seja, de que existe pelo menos um coeficiente das variaveis explicativas que e 
estatisticamente significante a 5%. 

Em relagao ao teste t, verificamos que o coeficiente da variavel medpop nao se mos- 
trou estatisticamente significante a 5% (0,05), pois apresentou p-valor superior a 0,47. 
Os coeficientes das variaveis dummies associadas as categorias 2 e 3 da variavel regiao 
mostraram-se estatisticamente significantes a 5%. 

Em relagao a variavel medpop , confirmamos aquilo que haviamos discutido quando 
analisamos a correlagao entre essa variavel e a dependente. Em relagao as variaveis 
dummies , os resultados dos testes t nos levam a conclusao, considerando a categoria 1 da 
variavel regiao como grupo de referenda, de que ha diferengas dessa regiao em relagao 
as demais para o comportamento da variavel div. 

Em fungao dos resultados obtidos, iremos retirar a variavel explicativa medpop e 
efetuaremos nova estimagao (Resultados 4.14), digitando o seguinte comando: 
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regress div mat i.regiao 

( --- \ 

RESULTADOS 4.14 Resultados da regressao linear multipla. 


. regress div 

mat i.regiao 






Source | 

| SS 

df 

MS 

Number of obs 
F( 3/ 149) 

Prob > F 

R-squared 

Adj R-Bquared 
Root MSE 

= 153 
= 2311.05 
= 0.0000 
= 0.9790 
= 0.9785 
= .37895 

Model | 
Residual 

995.599057 

21.3963435 

3 331.866352 

149 .143599621 

Total 

1016.9954 

152 6.69075921 

div 

Coef. 

Std. Err. 

t 

P>|t| 

[95% Conf. 

Interval] 

mat 

.3883247 

.0046642 

83.26 

0.000 

.3791083 

.3975411 

regiao 

2 

3 

1.002376 

-1.196387 

.0755151 

.078994 

13.27 

-15.15 

0.000 

0.000 

.8531568 

-1.352481 

1.151594 

-1.040294 

_cons 

-1.328611 

.2629691 

-5.05 

0.000 

-1.848241 

-.8089803 



V_/ 


Quando queremos trabalhar com apenas algumas categorias de uma variavel ou 
desejamos criar variaveis dummies para testar seus efeitos isoladamente, no Stata® o 
fazemos por meio do comando xi (Sintaxe 4.5). 


SINTAXE 4.5 Comando xi. 

xi i.varname 

Em que: 

• varname: Nome da variavel categorica que sera convertida em variaveis dummies. 

Vamos, inicialmente, solicitar a cria^ao das variaveis dummies , visto que utilizaremos 
apenas a categoria relativa a regiao 2 na regressao multipla. Na janela de comandos 
devemos digitar o seguinte: 

xi i.regiao 

/-\ 

RESULTADOS 4.15 Criando variaveis dummies a partir de uma variavel 
categorica. 

I|. xi i.regiao j| 

|| i . regiao_ Iregiao l-3_(naturally coded; Iregiaol omitted)_I 

S_> 

Podemos notar que foram criadas duas variaveis dummies , com os nomes de _lregiao_2 
e _Iregiao_3. A primeira categoria da variavel regiao e considerada a referenda. Vamos 
para a estima^ao da regressao, digitando o seguinte comando: 
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regress div mat _Iregiao_2 


— 

RESULTADOS 4.16 Resultados da regressao linear multipla. 


A 


. regress div 

mat _Iregiao 

2 





Source 

1 SS 

df 

MS 


Number of obs 

= 153 

-+- 




F ( 2 , 150) 

= 1328.78 

Model | 

962.660176 

2 

481.330088 


Prob > F 

= 0.0000 

Residual 

54.3352244 

150 

.362234829 


R-squared 

= 0.9466 

- + 

h - 




Adj R-squared 

= 0.9459 

Total | 

| 1016.9954 

152 

6.69075921 


Root MSE 

= .60186 

div 

Coef. 

Std. 

Err. t 

p>lt| 

[95% Conf. 

Interval] 

mat 

.3758989 

.0072923 51.55 

0.000 

.3614899 

.3903078 

Iregiao 2 

1.553288 

.1051053 14.78 

0.000 

1.345609 

1.760966 

cons 

-1.229469 

.4175309 -2.94 

0.004 

-2.05447 

-.4044671 



_/ 


Para analisannos os resultados da regressao, precisarmos nos certificar de que os pressupostos 
foram atendidos e, portanto, solicitaremos testes e estatisticas por meio dos seguintes comandos: 

predict res2, residual 
sfrancia res2 
estat hettest 
estat vif 


-\ 

RESULTADOS 4.17 Testes e estatisticas acessorios para a regressao linear 
multipla. 


. predict res2. 

residual 



. sfrancia res2 

Shapiro- 

Prancia W' 

test for normal data 

Variable | 

Obs 

W 

V 1 z Prob>z 

res2 | 

153 0 

.99448 

0.716 -0.679 0.75147 

. estat hettest 




Breusch-Pagan / Cook-Weisberg test for heteroskedasticity 

Ho: Constant variance 

Variables: fitted values of div 

chi2(1) 
Prob > 

chi2 = 

1.97 

0.1609 


. estat vif 




Variable | 

VIF 

1/VIF 


Iregiao 2 

mat | 

1.10 

1.10 

0.910502 

0.910502 


Mean VIP | 

1.10 




J 

























118 Metodos Quantitativos com Stata' 


ELSEVIER 


O teste Shapiro-Francia resultou em um p-valor superior a 0,75, o que implica a 
nao rejeigao da hipotese nula de que os residuos possuem distribui^ao normal. O teste 
Breusch-Pagan resultou em um p-valor superior a 0,16, indicando que os residuos sao 
homocedasticos. As estatisticas VIF foram inferiores a 5, descartando-se o problema da 
multicolinearidade.Verificamos, entao, que os pressupostos foram respeitados e pas- 
saremos as analises das estimates realizadas (Resultados 4.17). 

Os coeficientes R 2 e R 2 Ajustado foram similares aos obtidos na primeira estima^ao 
com uma regressao multipla que fizemos com todas as variaveis explicativas. Podemos 
notar que a ausencia da variavel medpop e da dummy relativa a categoria 3 da variavel vegiao 
nao afetaram consideravelmente o poder explicativo do atual modelo (Resultados 4.16). 

O teste F resultou em um p-valor inferior a 0,001, implicando a rejei^ao da hipotese 
nula de que todos os coeficientes estimados das variaveis explicativas sejam estatisticamente 
iguais a zero. Individualmente, por intermedio do teste t, verificamos que todas as variaveis 
explicativas e a constante foram consideradas significativas a um nivel de 5% (Resulta¬ 
dos 4.16).Assim, o modelo regressivo estimado pode ser representado pela seguinte equa^ao: 

estima^ao de div = —1,229 + 0,375. mat +1,553._ Iregiao_ 2 pquagao 4 3] 

Segundo o modelo estimado, a cada altera^ao em uma unidade na taxa de matrimonio 
ocorre 0,375 de varia^ao na taxa de divorcio, mantidas as demais condigoes constantes. 

Todavia, verificamos que, se um municipio estiver situado na regiao 2, a sua taxa 
de divorcio sera alterada em rela^ao aos municipios situados nas regioes 1 e 3. Se um 
municipio estiver situado na regiao 2, a taxa de divorcio sofrera uma varia^ao de 1,553. 
Em outras palavras, havendo dois municipios com a mesma taxa de matrimonio, porem, 
um localizado nas regioes 1 ou 3 e o outro localizado na regiao 2, esse ultimo tera uma 
taxa de divorcio superior em 1,553 unidades em rela^ao ao primeiro. 

Passamos agora a apresentar como realizar os procedimentos anteriores por meio da 
barra de menus. Em relagao ao comando xi, podemos acessa-lo clicando nas seguintes 
op^oes: Data Create or change data Other variable-creation commands Interaction 
expansion. Aparecera uma janela, conforme a Figura 4.10. 



Figura 4.10 Janela de configuraqoes do comando xi. 
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Figura 4.11 Janela de configuraqoes do comando regress. 

Em rela^ao ao comando regress, precisaremos acessar as seguintes op^oes: Statistics ~} 
Linear models and related Linear regression. Surgira uma janela, conforme a Figura 4.11. 

Para gerar a serie de residuos da regressao, acessamos o comando predict, a partir 
das seguintes opgoes: Statistics Postestimation Predictions, residuals, etc. Ira surgir a 
janela da Figura 4.12. 



Figura 4.12 Janela de configuraqoes do comando predict. 

Para realizar o teste Shapiro-Francia, basta selecionarmos as seguintes opgoes: Statistics 
Summaries, tables, and tests ~} Distributional plots and tests Shapiro-Francia normality test. 
Ira surgir a janela da Figura 4.13. 

Para realizar o teste Breusch-Pagan, basta selecionarmos as seguintes opgoes: Statistics 
Postestimation ~} Reports and statistics. Aparecera a janela da Figura 4.14. 
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Para obtermos as estatisticas VIF, basta selecionarmos as seguintes op^oes: Statistics ~} 
Postestimation ~} Reports and statistics. Surgira a janela da Figura 4.15. 



Figura 4.13 Janela de configuraqoes do comando sfrancia. 



Figura 4.14 Janela de configuraqoes do comando estat selecionando-se a opqao hettest. 



Figura 4.15 Janela de configuraqoes do comando estat selecionando-se a opgao vif. 
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4.7. OPgOES NA REGRESSAO LINEAR SIMPLES 

Nesta se^ao, iremos abordar algumas op^oes disponiveis no comando regress utilizan- 
do o nosso modelo de regressao linear simples. Entretanto, essas op^oes sao igualmente 
validas quando estivermos utilizando uma regressao linear multipla. 

Por padrao, o Stata® utiliza o nivel de confian^a de 95% para estimar um intervalo 
de confian^a para os parametros da regressao. Todavia, caso queiramos trabalhar com 
outro nivel de confian^a de, por exemplo, 90%, precisamos utilizar a op^ao level, no 
comando regress. 

Voltando ao nosso exemplo de regressao linear simples, modificaremos o nosso nivel 
de significance para 10% (nivel de confianga de 90%), utilizando o seguinte comando: 

regress div mat, level(90) 


RESULTADOS 4.18 Resultados da regressao linear simples. 


. regress div mat, level(90) 


Source 


ss 

df 

MS 


Number of obs 
F ( 1, 151) 

Prob > F 
R-squared 

Adj R-squared 
Root MSE 

= 

153 

999.76 

0.0000 

0.8688 

0.8679 

.94008 

Model 

Residual 


883.547715 

133.447686 

1 

151 

883.547715 

.883759511 


= 

Total 

i 

1016.9954 

152 

6.69075921 


= 

div 

| 

Coef. 

Std. 

Err. t 

p>it| 

[90% Conf. 

Interval] 

mat 

cons 


.3436585 

1.13232 

.0108687 31.62 

.6025058 1.88 

0.000 

0.062 

.3256706 

.1351689 

2 

3616463 

.129472 




Quando comparamos os resultados dessa nova regressao com os obtidos na se^ao 
4.2, verificamos que apenas houve mudan^a no intervalo de confianga dos parametros 
(Resultados 4.18). 

O intervalo de confian^a dos parametros pode ser utilizado para estimar o intervalo 
de confian^a para a previsao da variavel dependente. Assim poderemos definir as equates 
para os limites inferiores e superiores da regressao, utilizando o intervalo de confian^a 
dos parametros. 

No nosso exemplo teriamos: 

Equa^ao para o limite inferior do valor previsto para a variavel dependente: 


estimagao de div = 0,135 + 0,326.m<at 


[Equa^ao 4.4] 


Equa^ao para o limite superior do valor previsto para a variavel dependente: 


estima^ao de div = 2,129 + 0,362 .mat 


[Equa^ao 4.5] 
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Por exemplo, considerando um nivel de confian^a de 90%, o intervalo de confian^a 
para a previsao da taxa de divorcio para um municipio cuja taxa de matrimonio e de 
100 seria: 

Limite inferior: 


estima^ao de div = 0,135 + 0,326.(100) = 32,735 


Limite superior: 


[Equa^ao 4.6] 


estimagaode div = 2,129 + 0,362.(100) = 38,329 


[Equa^ao 4.7] 


Assim, de acordo com o modelo e considerando um nivel de significance de 10%, o 
real valor de div para tal municipio estaria situado no seguinte intervalo: [32,735; 38,329]. 

A outra op^ao se refere a realiza^ao do teste Breusch-Godfrey para a detecgao 
de autocorrela^ao serial, quando utilizamos series temporais com o comando regress. 

A base de dados que estamos utilizando neste capitulo compreende uma serie trans¬ 
versal, conhecida por cross-section (ou seja, somente as observa^oes ou individuos analisados 
variam; o tempo nao varia).Todavia, para fms didaticos, iremos transforma-la em uma 
serie longitudinal (ou seja, o tempo passa a variar, mas nao os individuos ou observa^oes), 
para a realiza^ao do teste para a detec^ao de autocorrebyao dos residuos. 

Criaremos uma variavel temporal utilizando o comando gen. Informaremos ao 
Stata®, na janela de comandos, o seguinte: 
gen mes = m(2009ml2) + _n 



\ 

RESULTADOS 4.19 Criaqao de uma variavel temporal. 


|| . gen mes = m(2 00 9ml2) + n || 



> 


Sera criada a variavel mes , que sera utilizada para defmir a serie como sendo temporal. 
Para isso, precisaremos do comando tsset (Sintaxe 4.6). 


SINTAXE4.6 Comando tsset. 

tsset timevar [, options] 

Em que: 

• timevar: Nome da variavel temporal. 

• options: Especifica o formato da variavel de acordo com a frequencia: (i) daily: diario; (ii) 
weekly: semanal, (iii) monthly: mensal; (iv) quartely: quadrimestral; (v) halfyearly: semes- 
tral; e (vi) yearly: anual. 





Regressao Linear 123 



ELSEVIER 


Assim, digitaremos o seguinte comando: 

tsset mes, monthly 

f > 

RESULTADOS 4.20 Definida a serie como sendo temporal. 


. tsset mes. 

monthly 

- 1 

time 

variable: 

mes, 2010ml to 2022m9 1 


delta: 

1 month | 


_ / 

Para realizar o teste Breusch-Godfrey, utilizaremos o comando estat bgodfrey 
(Sintaxe 4.7) (nas versoes mais antigas do Stata®, apenas bgodfrey): 


SINTAXE 4.7 Comando estat bgodfrey. 

estat bgodfrey [, lags(laglist)] 

Em que: 

• lags: Especifica o numero de defasagens (logs) que serao testadas para a detecgao da 
autocorrelagao. Pode ser informada uma lista de defasagens no lugar do termo lagslist. 


No nosso exemplo, iremos verificar se existem problemas de autocorrelagao serial 
utilizando ate tres defasagens. Devemos informar o seguinte comando: 

estat bgodfrey, lags (12 3) 


f > 

RESULTADOS 4.21 Teste Breusch-Godfrey. 


. eatat bgodfrey, laga (1 2 3) 
Breusch-Godfrey LM test for autocorrelation 


lags(p) 

| chi2 

df 

Prob > chi2 

1 

0.774 

1 

0.3790 

2 

1.042 

2 

0.5941 

3 

1.045 

3 

0.7904 


HO : no 

serial correlation 



V_ 


O teste Breusch-Godfrey apresenta a hipotese nula de que os residuos nao sao 
autocorrelacionados na ordem especificada pelo numero de defasagens. Caso a base de 
dados utilizada fosse uma serie temporal, e considerando um nivel de significancia 
de 5%, verificariamos que a mesma nao apresentaria problemas de autocorrela^ao serial 
(Resultados 4.21). 
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Caso desejassemos utilizar a barra de menus para a sele^ao dos comandos anteriores, 
precisanamos proceder da forma relatada a seguir. Em rela^ao ao comando gen, devemos 
clicar nas seguintes op^oes: Data Create or change data Create new variable. Surgira 
a janela da Figura 4.16. 

Em rela^ao ao comando tsset, o mesmo pode ser acessado por meio da sele^ao 
das seguintes opgoes: Statistics ~} Time series Setup and utilities ~} Declare dataset to be 
time-series data. Aparecera a janela da Figura 4.17. 



to tsset Declare dataset to be time series data ® 



Figura 4.16 Janela de configurates do 
comando gen. 


\ OK j | Cancel | | Submit | 

Figura 4.17 Janela de configurates do 
comando tsset. 


Para realizar o teste Breusch-Godfrey, basta selecionarmos as seguintes op^oes: Statistics 
Postestimation ~} Reports and statistics. Aparecera a janela da Figura 4.18. 



Figura 4.18 Janela de configurator do comando estat selecionando-se a opqao bgodfrey. 
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4.8. EXERCICIOS 

1. Buscando detectar um padrao de comportamento dos retornos das a^oes negociadas 
na bolsa de valores BM&FBovespa, um analista coletou dados referentes aos retornos 
anuais de 112 empresas (arquivo retorno.dta), bem como informa^oes de variaveis 
julgadas boas preditoras para a varia^ao nos pre^os das a^oes, quais sejam: 


Variavel 

Tamanho 

Book/Mkt 

Beta 

ROA 

INV 


Descri^ao 

Tamanho da companhia (logaritmo natural do ativo total 
da empresa) 

Quociente entre o valor de livro (Patrimonio Liquido) e o valor 
de mercado 

Indicador utilizado para calcular o risco das agoes 
Retorno sobre Ativo 

Crescimento do Ativo Imobilizado entre t e t-1 


Com base nessas informa^oes, pede-se: 

a. Estime uma regressao em que o retorno e a variavel dependente e as demais va¬ 
riaveis apresentadas sao as variaveis explicativas. Qual e o numero de observa^oes? 

b. O erro-padrao serve como uma medida da variabilidade tipica do coeficiente de 
regressao. Quais os erros-padrao das variaveis explicativas da regressao? 

c. Qual e o coeficiente de determina^ao? 

d. Qual e o p-valor geral do teste F? Considerando-se 95% de nivel de confianga, 
voce rejeita a hipotese nula desta estatistica? Qual interpretagao pode ser dada 
diante do resultado do teste? 

e. Considerando-se 95% de nivel de confianga, voce rejeita a hipotese nula de que os 
parametros do intercepto e das variaveis explicativas sejam estatisticamente iguais a zero? 

f. Reestime a regressao mantendo apenas as variaveis consideradas estatisticamente 
significativas. Interprete e compare os resultados com a equa^ao anterior. 

2. Com base no arquivo acoes.dta, que traz dados sobre os retornos dos papeis das empresas 

ACESITA e CESP listados na Bolsa de Valores de Sao Paulo, bem como o retorno do 

proprio mdice Ibovespa ao longo de um periodo composto por 71 dias uteis, pede-se: 

a. Estime como a varia^ao do retorno do Ibovespa impacta no retorno da empresa 
ACESITA. 

b. Interprete o nivel de significancia da reta de regressao e dos parametros individuals, 
bem como o coeficiente de determina^ao. 

c. Estime um novo modelo, desta vez com o retorno da empresa CESP como 
variavel dependente. Interprete os resultados. 

d. Se o retorno do Ibovespa alcangar o patamar de 0,5%, quais serao os retornos 
previstos para as a^oes das empresas ACESITA e CESP? Alem disso, quais sao os 
intervalos de previsao para os retornos das a^oes com nivel de confianga de 95%? 




5 


CAPITULO 


Avalia^ao dos Modelos de Regressao 


No Capitulo 4, estudamos a tecnica de regressao linear utilizando os modelos sim¬ 
ples e multiplo. Neste capitulo, iremos aprofundar alguns conceitos relativos a avaliagao 
dos modelos regressivos estimados, alem de tratar da aplicagao dos testes de hipoteses e 
da transformagao de variaveis. 

Usaremos em nossos exemplos a base de dados paises.dta. A referida base possui 79 
observagoes sobre dados simulados relativos a paises. E composta pelas variaveis contidas 
no Quadro 5.1. 

Na janela de comandos do aplicativo Stata®, solicitaremos a abertura da base de 
dados paises.dta, utilizando o comando use (Resultados 5.1). Lembre-se de informar 
o enderego completo de localizagao do arquivo paises.dta. 


f > 

RESULTADOS 5.1 Abertura do arquivo paises.dta. 

E . use "paises.dta" 

(Dados simulados sobre paises) 

_Z 


Quadro 5.1 Variaveis que compoem a base de dados paises.dta 


Variavel 

Descrigao 

Tipo 

pais 

Pais 

Qualitativa 

pop 

Populagao 

Quantitativa 

nata 

Taxa de natalidade 

Quantitativa 

mort 

Taxa de mortalidade 

Quantitativa 

morl 

Mortalidade infantil (para criangas 
entre um a cinco anos) 

Quantitativa 

mor2 

Mortalidade infantil (para criangas 
com ate um ano) 

Quantitativa 

expe 

Expectativa de vida 

Quantitativa 

pibp 

PIB per capita 

Quantitativa 

urba 

Percentual da populagao urbana 

Quantitativa 

escl 

Percentual da populagao 
com primeiro grau 

Quantitativa 

esc2 

Percentual da populagao 
com segundo grau 

Quantitativa 
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5.1. TESTES DEHIPOTESES 

Suponha que estamos interessados em conhecer a rela^ao da taxa de natalidade (nata) 
nos paises que compoem a amostra em fun^ao da expectativa de vida (expe) e percentual 
de pessoas com segundo grau (esc2). 

Para realizar tal tarefa, iremos utilizar o seguinte comando: 

regress nata expe esc2 

Conforme vimos no Capitulo 4, o p-valor do teste F foi inferior a 0,0001, implicando 
a rejei^ao da hipotese nula de que todos os coeficientes estimados das variaveis expli- 
cativas sao nulos. Individualmente, todos os p-valores dos testes t indicam que todas as 
variaveis explicativas e a constante foram consideradas significativas. O poder explicativo 
do modelo foi de aproximadamente 78,34% (Resultados 5.2). 


( \ 

RESULTADOS 5.2 Resultados da regressao multipla. 



regress nata 

Source | 

expe esc2 

SS 

df 

MS 


Number of obs 
F ( 2/ 76) 

Prob > F 

R-squared 

Adj R-squared 
Root MSE 

= 79 

= 137.46 

= 0.0000 

= 0.7834 

= 0.7777 

= 4.5771 


Model | 
Residual j 

5759.56004 

1592.17166 

2 

76 

2879.78002 

20.9496271 


Total | 

7351.7317 

78 

94.2529705 


nata | 

Coef. 

Std. 

Err. t 

p>it| 

[95% Conf. 

Interval] 


expe 

-.2912442 

.109392 -2.66 

0.009 

- .5091173 

-.0733711 


esc2 

-.2487269 

.0428599 -5.80 

0.000 

- .3340898 

-.163364 


cons j 

58.06357 

5.36357 10.83 

0.000 

47.3811 

68.74605 



<_ J 


O modelo estimado pode ser representado pela seguinte equagao: 

estima^ao de nata = 58,063 — 0,291 .expe — 0,249. esc2 [Equa^ao 5.1] 

De acordo com o modelo anterior percebemos que, mantidas todas as demais variaveis 
inalteradas: 

1. Paises com maior expectativa de vida tendem a apresentar menor taxa de natalidade. 

2. Paises onde a maioria da popula^ao possui o segundo grau tendem a apresentar menor 
taxa de natalidade. 

Agora, imaginemos que estamos interessados em comparar os parametros estimados 
com outros valores ou entre si. Para fazer a compara^ao de quaisquer valores em relagao 
aos coeficientes estimados, o Stata® utiliza o teste de Wald, por meio do comando test 
(Sintaxe 5.1). 
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SINTAXE5.1 Comandotest. 

test exp 

Em que: 

• exp: Expressao que sera considerada como hipotese nula do teste. 


No exemplo anterior, verificamos que o coeficiente estimado para a variavel expe foi 
de -0,291. Supondo que, em uma pesquisa anterior, o coeficiente estimado tivesse sido 
de -0,34. Assim, iremos testar se o valor estimado pela regressao atual difere significativa- 
mente do obtido na regressao anterior. Devemos digitar o seguinte comando no Stata®: 

test expe = -0.34 

Verificamos que, mesmo que se considerasse um nivel de significancia de 10%, com 
um p-valor de 0,657, nao haveria rejeigao da hipotese nula do teste que, nesse caso, foi 
a seguinte: H Q : j8 = -0,34 (Resultados 5.3). 


( -\ 

RESULTADOS 5.3 Teste de Wald para os coeficientes de uma regressao. 


. test 

expe = -0.34 


( 1) 

expe = -.34 



F( 1, 76) = 

0.20 


Prob > F = 

0.6571 


V_/ 


Suponhamos que desejamos verificar se a intensidade do efeito da variavel expe e a 
mesma da variavel esc2. Novamente faremos uso do teste de Wald, informando na janela 
de comandos o seguinte: 

test expe = esc2 

Para verificar se os coeficientes das variaveis expe e esc2 sao iguais, o Stata® recons- 
truiu a expressao que informamos de modo a comparar se a mesma e igual a zero. 
Assim sendo, a hipotese nula que foi informada H Q : j3 = (3 2 foi modificada para H Q : 

expe esc2 
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Com um p-valor superior a 0,7, concluimos que nao houve rejei^ao da hipotese 
nula, e que, em modulo, as variaveis expe e esc2 afetam a taxa de natalidade com a mesma 
intensidade, do ponto de vista estatistico (Resultados 5.4). 


< > 

RESULTADOS 5.4 Teste de Wald para os coeficientes de uma regressao. 


. test 

expe = esc2 


( 1) 

expe - esc2 = 0 



F ( 1, 76) = 

0.08 


Prob > F = 

0.7749 


V_/ 


Por ultimo, imaginemos que, em outro estudo, foi identificado que a soma dos 
coeficientes das variaveis esc2 e expe foi igual -0,9. Para testar se a situa^ao se repetiu na 
presente regressao, utilizaremos o seguinte comando: 

test esc2 + expe == -0.9 

Com um p-valor inferior a 0,0001 no teste de Wald, considerando qualquer um dos 
niveis de significance usuais, rejeitamos a hipotese nula de que, na nova regressao, a soma 
desses coeficientes seja igual a -0,9 (Resultados 5.5). 


/-\ 

RESULTADOS 5.5 Teste de Wald para os coeficientes de uma regressao. 


. test 

esc2 + expe == -0.9 

( 1) 

expe + esc2 = -.9 


F ( 1, 76) = 22.90 

Prob > F = 0.0000 


V_/ 


Para acessar o teste de Wald, apos uma regressao, via barra de menus, precisamos 
selecionar as seguintes op^oes: Statistics ~} Postestimation ~} Tests Test linear hypotheses. 
Surgira uma janela, conforme a Figura 5.1. 
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Figura 5.1 Janelas de configuragdes do comando test. 


5.2. MULTICOLINEARIDADE 

A multicolinearidade ocorre quando duas ou mais variaveis explicativas possuem 
correlagao entre si. Quando a multicolinearidade se da em um grau bastante elevado, 
podem ser gerados vieses bastante expressivos nos parametros estimados em uma regressao. 

Conforme vimos no Capitulo 4, nao ha um teste amplamente aceito para a detecgao 
da multicolinearidade. Para detectar a sua presenga, costumamos utilizar algumas estatis- 
ticas, tais como a correlagao linear e o fator de inflagao da variancia ouVIF (variance 
inflation factor). 

No exemplo a ser utilizado, queremos analisar a relagao da taxa de mortalidade com 
as seguintes variaveis explicativas: morl , mor2 e expe. 

Inicialmente, iremos solicitar a correlagao linear entre essas variaveis, utilizando o 
seguinte comando: 

pwcorr mort morl mor2 expe, sig 

Observando os Resultados 5.6, percebemos que todas as variaveis explicativas pos¬ 
suem correlates, entre si, superiores a 0,8 a um nivel de significancia de 1%.Variaveis 


< > 

RESULTADOS 5.6 Analise da correla^ao entre variaveis. 


pwcorr mort 

morl mor2 

expe, sig 




mort 

morl 

mor2 

expe 

mort 

1.0000 




morl 

0.4395 

0.0001 

1.0000 



mor2 

0.4735 

0.0000 

0.9895 

0.0000 

1.0000 


expe 

-0.5610 

0.0000 

-0.9096 

0.0000 

-0.8938 

0.0000 

1.0000 


_ / 
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explicativas fortemente correlacionadas sao um forte indicativo de que havera problemas 
de multicolinearidade. 

Agora, solicitaremos a estima^ao dos parametros da regressao. Utilizaremos o comando 
regress em sua forma reduzida (reg), informando o seguinte: 

reg mort morl mor2 expe 

Verificamos que os resultados, tanto do teste F quanto do teste t, indicam que as 
variaveis explicativas possuem coeficientes estatisticamente significativos. Os R 2 e R 2 
Ajustado alcan^aram os valores de 0,439 e 0,416, respectivamente (Resultados 5.7). Pas- 
saremos para a analise das estatisticasVIF. 


f > 

RESULTADOS 5.7 Resultados da regressao multipla. 


. reg mort morl 

Source | 

mor2 expe 

SS 

df 


MS 


Number of obs 
F ( 3, 75) 

Prob > F 
R-squared 

Adj R-squared 
Root MSE 

= 79 

= 19.56 

= 0.0000 
= 0.4389 

= 0.4165 

= 2.6947 

Model 

Residual 


425.989467 

544.603811 

3 

75 

141.996489 

7.26138414 

Total 

! 

970.593278 

78 

12. 

4435036 

mort 


Coef. 

Std. 

Err. 

t 

p>it| 

[95% Conf. 

Interval] 

morl 


-.3475482 

.0866649 

-4.01 

0.000 

-.5201936 

-.1749028 

mor2 


.1770391 

.0496353 

3.57 

0.001 

.0781605 

.2759177 

expe 


-.3733709 

.0772901 

-4.83 

0.000 

-.5273406 

- .2194012 

cons 

1 

37.66457 

6.132615 

6.14 

0.000 

25.44777 

49.88136 



V_/ 


Devemos digitar o seguinte na janela de comandos do Stata®: 

estat vif 

De acordo com as estatisticasVIF, observamos que, com exce^ao da variavel relativa 
a expectativa de vida, as demais variaveis explicativas apresentaram estatisticas superiores 
a 10 (Resultados 5.8). Segundo Gujarati (2011), umVIF acima de 10 e indicativo de 
multicolinearidade, porem, Favero et al. (2009) argumentam que umVIF acima de 5 ja 
pode causar problemas de multicolinearidade, conforme ja discutido no Capitulo 4. 

Em razao de tais resultados, podemos concluir que o modelo estimado apresenta 
problemas de multicolinearidade que podem enviesar os parametros estimados. 












Avaliagao dos Modelos de Regressao 133 


-\ 

RESULTADOS 5.8 Estatisticas VIF. 


. estat vif 


Variable | 

VIF 

1/VIF 

morl 

56.22 

0.017788 

mor2 

48.25 

0.020725 

expe 

5.86 

0.170727 

Mean VIF 1 

36.78 



_ / 


5.3. HETEROCEDASTICIDADE 

No Capitulo 4 foram apresentados os pressupostos do estimador de minimos qua- 
drados utilizados pelo Stata® no comando regress, para as regressoes lineares simples e 
multiplas. Dentre os pressupostos, esta defmido que os residuos devem ser homocedas- 
ticos, ou seja, nao devem haver problemas de heterocedasticidade. 

O teste para a detecgao da heterocedasticidade foi o Breusch-Pagan, executado no 
Stata® por intermedio do comando estat hettest ou simples hettest (principalmente 
nas versoes mais antigas). Apresentamos novamente a sintaxe deste comando, incluindo 
novas op goes (Sintaxe 5.2). 


SINTAXE 5.2 Comando estat hettest. 

estat hettest [varlist] [, iid] [, fstat] 

Em que: 

• varlist: Lista contendo as variaveis explicativas que serao utilizadas no computo da es¬ 
tatistica do teste. Caso nao seja informada nenhuma variavel, o Stata® utilizara as variaveis 
explicativas da ultima regressao estimada. 

• iid: Utiliza a estatistica NR2, no lugar da estatistica-padrao do teste. 

• fstat: Utiliza a estatistica F, no lugar da estatistica-padrao do teste. 


Voltaremos a realizar a estimativa do primeiro modelo, que tern como variavel de- 
pendente a taxa de natalidade. Depois solicitaremos o teste Breusch-Pagan. Devemos 
informar os seguintes comandos: 
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reg nata expe esc2 
hettest 

Com um p-valor de 0,0101, concluimos, de acordo com o teste Breusch-Pagan, que 
a hipotese nula foi rejeitada (Resultados 5.9). Dessa forma, os residuos da regressao sao 
considerados heterocedasticos. 


-\ 

RESULTADOS 5.9 Resultados da regressao multipla 
e teste Breusch-Pagan. 


. reg nata expe 

Source | 

esc2 

SS 

df 

MS 


Number of obs 
F ( 2, 76) 

Prob > F 

R-squared 

Adj R-squared 
Root MSE 

= 79 

= 137.46 

= 0.0000 

= 0.7834 

= 0.7777 

= 4.5771 

Model 

Residual 


5759.56004 

1592.17166 

2 

76 

2879.78002 

20.9496271 

Total 

i 

7351.7317 

78 

94.2529705 

nata 

i 

Coef. 

Std. 

Err. t 

p>|t| 

[95% Conf. 

Interval] 

expe 


-.2912442 

.109392 -2.66 

0.009 

-.5091173 

-.0733711 

esc2 


-.2487269 

.0428599 -5.80 

0.000 

- .3340898 

- .163364 

cons 

1 

58.06357 

5.36357 10.83 

0.000 

47.3811 

68.74605 


. hettest 

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity 
Ho: Constant variance 
Variables: fitted values of nata 

chi2(1) = 6.62 

Prob > chi2 = 0.0101 

_ / 


As op^oes do comando estat hettest somente deverao ser utilizadas quando o es- 
timador utilizado na regressao nao tiver como pressuposto que os residuos possuem 
distribuigao normal. Nao e o caso do estimador dos mmirnos quadrados. 

Existe no Stata® outro teste para detec^ao de heterocedasticidade: o teste de White. 
Esse teste e executado por meio do comando estat imtest ou simplesmente imtest 
(especialmente nas versoes mais antigas) (Sintaxe 5.3). 


SINTAXE5.3 Comando estat imtest. 

estat imtest, white 

Em que: 

• white: Essa op<;ao deve ser informada para que o Stata® realize o teste de White no formato 
original. 
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Continuando com o nosso exemplo,informaremos,na janela de comandos, o seguinte: 

imtest, white 

O teste de White possui hipoteses semelhantes as do teste Breusch-Pagan, isto e: 
H o : os residuos sao homocedasticos, e os residuos sao heterocedasticos.Verificamos 
que o teste de White tambem indicou que os residuos sao heterocedasticos em razao da 
rejeigao da hipotese nula (Resultados 5.10). 


( -\ 

RESULTADOS 5.10 Teste de White. 

. imtest, white 

White's test for Ho: homoskedasticity 

against Ha: unrestricted heteroskedasticity 

chi2 (5) = 15.93 

Prob > chi2 = 0.0070 

Cameron & Trivedi's decomposition of IM-test 


Source | chi2 df p 


Heteroskedasticity | 15.93 5 0.0070 

Skewness j 5.88 2 0.0528 

Kurtosis | 0.49 1 0.4856 


Total | 22.30 8 0.0044 



Para acessar o teste Breusch-Pagan, utilizando a barra de menus, devemos clicar nas 
seguintes opgoes: Statistics ~} Postestimation ~} Reports and statistics. Aparecera uma janela, 
conforme a Figura 5.2. 

Para acessar o teste de White, utilizando a barra de menus, devemos clicar nas se¬ 
guintes opgoes: Statistics ~} Postestimation ~} Reports and statistics. Ira aparecer uma janela, 
conforme a Figura 5.3. 
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Figura 5.2 Janela de configurator do comando estat selecionando-se a opgao hettest. 



Figura 5.3 Janela de configurates do comando estat selecionando-se a opgao imtest. 


5.4. GRAFICOS DE AVALIAgAO 

Podemos utilizar alguns dos recursos graficos para avaliar as estimates realizadas 
em uma regressao. 

Alguns graficos podem ser empregados para a detec^ao de outliers , utilizando-se series 
obtidas a partir do comando predict, apos uma regressao. Antes de analisarmos esses 
graficos, vamos estudar a sintaxe de novas op^oes para o comando predict (Sintaxe 5.4). 

O primeiro grafico que iremos obter e o histograma. Para gerar este grafico utiliza- 
remos o comando histogram, conforme vimos no Capitulo 2. 
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SINTAXE5.4 Comando predict, 

predict newvar [, rstudent] 

Em que: 

• newvar: Nome da nova variavel que armazenara os valores previstos. 

• rstudent: Op^ao a ser utilizada para a gera^ao dos residuos estudentizados da regressao. 


Para a identificagao de outliers, iremos utilizar os residuos estudentizados da regressao 
e exibi-los no histograma da serie. Na janela de comandos do Stata®, digitaremos os 
seguintes comandos: 

predict resl, rstudent 
histogram resl 


1 

^ESULTADOS 5.11 Gerando o histograma dos residuo 

s estudentizados. 

. predict resl, rstudent 

. histogram resl 

(bin=8, start=-2.2365158, width=.61626831) 



J 


Apos a analise do histograma dos residuos estudentizados (Figura 5.4), verificamos que 
existem observagoes cujos residuos foram superiores a dois em modulo, sendo provavel 



Studentized residuals 


Figura 5.4 Histograma dos residuos estudentizados. 
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a existencia de outliers. Para localizarmos essas observa^oes, iremos utilizar o comando 
list, informando na janela de comandos o seguinte: 

list pais nata expe esc2 resl if abs(resl) > 2 

Os paises de codigos 33,43,46 e 73 apresentaram residuos com valores acima de dois 
em modulo (Resultados 5.12). Em uma rapida analise, podemos perceber que a taxa de 
natalidade do pais de codigo 43 e relativamente mais baixa do que a dos outros paises, 
quando comparada com expectativa de vida similar (pais de codigo 46). 


f > 

RESULTADOS 5.12 Listando possiveis outliers em funqao dos resfduos 
estudentizados. 


. list pais 

nata expe 

esc2 resl if 

abs(resl) 

> 2 


pais 

nata 

expe 

esc2 

resl 


33. 

33 

21.5 

81.553659 

98.46043 

2.693631 


43. 

43 

28.069 

46.669366 

28.03876 

-2.236516 


46. 

46 

46.914 

50.536049 

27.63603 

2.44587 


73. 

73 

27.923 

66.967683 

84.04336 

2.378645 



_ / 


Para acessar o comando predict, por meio da barra de menus, basta selecionar as 
seguintes opcoes: Statistics Postestimation Predictions, residuals, etc. Sera exibida uma 
janela, conforme a Figura 5.5. 



Figura 5.5 Janela de configuraqoes do comando predict. 
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Por intermedio da barra de menus, acessamos o comando histogram, por meio 
das seguintes opgoes: Graphics Histogram. Sera exibida uma janela, conforme a 
Figura 5.6. 



Figura 5.6 Janela de configurates do comando histogram. 


Outra forma de identificagao de outliers e o uso do grafico de dispersao das distancias 
de leverage. No Stata®, a geragao deste grafico e possivel por meio do comando lvr2plot 
(Sintaxe 5.5). 


SINTAXE 5.5 Comando lvr2plot. 

lvr2plot [, mlabel(varname)] 

Em que: 

• varname: Nome da variavel que sera utilizada para rotular os pontos no grafico. 


Vamos agora verificar o grafico de dispersao das distancias de leverage. Inicialmente 
iremos criar um indice para que possamos identificar os pontos no grafico e, na sequencia, 
iremos solicitar a geragao do grafico (Figura 5.7). Para tanto,precisamos digitar o seguinte 
comando no Stata®: 
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• 43 


I4J 


37 


• 46 
• 73 


• 39 


>33 


-1-1-1— 

.02 .04 .06 

Normalized residual squared 

Figura 5.7 Grafico de dispersao das distancias de leverage. 


.08 


lvr2plot, mlabel(pais) 


/ --- ^ 

RESULTADOS 5.13 Gerando o grafico de dispersao das distancias de 

leverage. 



V_ y 


Na analise grafica, podemos notar que as observa^oes 6 e 43 sao aquelas que apre- 
sentam as maiores distancias de leverage , ou seja, podem ser consideradas como provaveis 
outliers . Para verificar as observa^oes destacadas, usaremos, novamente, o comando list. 
Digitaremos o seguinte: 

list pais nata expe esc2 rest if pais == 6 | pais ==43 

Apenas o pais de codigo 43 havia sido identificado, quando observarmos o criterio 
anterior. O pais de codigo 6 nao fora identificado, pois o respectivo residuo foi inferior 
a dois (Resultados 5.14). 
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RESULTADOS 5.14 Listando possiveis outliers em funqao das distancias 
de leverage. 


. list pais nata expe esc2 resl if pais == 6 | pais == 43 

+-+ 



pais 

nata 

expe 

esc2 

resl 

6. 

6 

23.814 

53.011537 

61.07163 

-.8492496 

43. 

43 

28.069 

46.669366 

28.03876 

-2.236516 



Para acessar o comando lvr2plot, e necessario selecionar as seguintes opgoes: Statistics 
Linear models and related Regression diagnostics Leverage-versus-squared-residual plot. 
Aparecera uma janela, conforme a Figura 5.8. 


9 lvr2ptot Leverage-versus squared residual plot 


HE® 


I lvr2p(ot Leverage versus squared-residual plot 



Main Plot Add plots Y axis Xaas Titles Legend Overall 
Plot type: (scattecplot) 


Scatter 

Line 

Connected 
Area 
Bar 
Spike 
0 topline 


3 Marker properties 


Figura 5.8 Janelas de configuraqoes do comando lvr2plot. 


Main Advanced 


Marker properties 


Symbol Default 


Color: Del** 
See- 


0 Add labels to markers 

Variable, pais 


Label color. Defat* 
Label size. 

Label position Default 
Label angle. 

Label pap. 


© 


I OK | [ Cancel ] | Submit ] 


I Accept | [ Cancel ] [ Submit 
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Para acessar o comando list, e necessario selecionar as seguintes opgoes: Data ~} 
Describe data ~} List data. Ira aparecer uma janela, conforme a Figura 5.9. 



Figura 5.9 Janelas de configuragdes do comando list. 

5.5. TRANSFORMA^AO DE VARIAVEIS 

As vezes sao necessarias algumas transferma^oes em variaveis para evitar ou amenizar 
problemas ocasionados em uma regressao. Diferen^as de escala, excesso de assimetria 
e excesso de curtose sao apenas alguns exemplos de caracteristicas de uma variavel que 
podem torna-la problematica em uma estima^ao. 

Primeiramente, iremos observar o histograma da variavel pop. Informaremos, na janela 
de comandos, o seguinte: 
histogram pop 


f > 

RESULTADOS 5.15 Gerando o histograma da variavel pop 

in histogram pop 

|| (bin=10, start=l, width=103.93) 

s_2 

No histograma (Figura 5.10) podemos observar que a variavel pop e assimetrica 
positiva, isto e, ha grande concentra^ao de valores abaixo da media da variavel. 

A primeira transferma^ao que faremos se refere a logaritmiza^ao de uma variavel. 
O logaritmo de uma variavel permite que seja preservada a rela^ao linear entre duas 
variaveis e reduz problemas de assimetria. 
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1.000e+08 2.000e+08 

Populasao 


3.000e+08 


Figura 5.10 Histograma da variavel pop. 


Utilizaremos o comando gen para criar o logaritmo da variavel pop. O Stata® emprega 
a fungao log para criar o logaritmo natural de uma variavel. Informaremos o seguinte 
na janela de comandos: 

gen lpop = log(pop) 
histogram lpop 


--- ^ 

RESULTADOS 5.16 Criando o logaritmo da variavel pop e gerando o 

histograma da variavel lpop. 


. gen lpop = log(pop) 

. histogram lpop 

(bin=8 # start=ll.601568, width=.99250579) 

_ > 


Visualmente, verificamos que o histograma da nova variavel e menos assimetrico do 
que o histograma da variavel original (Figura 5.11). 
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Ipop 

Figura 5.11 Histograma da variavel Ipop. 


Outra transforma^ao possivel e a transforma^ao de Box-Cox, que busca resolver 
problemas de assimetria, tornando a distribui^ao da variavel a mais simetrica possivel. 
No Stata®, tal transforma^ao e elaborada por meio do comando bcskewO (Sintaxe 5.6). 


SINTAXE5.6 Comando bcskewO. 

bcskewO newvar = varname 

Em que: 

• newvar: Nome da variavel que sera criada. 

• varname: Nome da variavel que sera transformada. 


Agora, digitaremos os seguintes comandos: 

bcskewO bpop = pop 
histogram bpop 

De acordo com o resultado da transforma^ao de Box-Cox e com o grafico da nova 
variavel, verificamos que se trata de uma distribui^ao cuja medida de assimetria e de 
0,0001, o que nos leva a considerar tal distribui^ao como simetrica (Resultados 5.17 
e Figura 5.12). 
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RESULTADOS 5.17 Utilizando a transformagao de Box-Cox na variavel 
pop e gerando o histograma da variavel bpop 


. bcskewO bpop = pop 




Transform | L 

[95% Conf. Interval] 

Skewness 


(pop A L-l)/L | .0551868 

(not calculated) 

.0000174 


. histogram bpop 

(bin=8, start=16.253193, width=2, 

.3627157) 




V_/ 



(pop A .0551868-1 )/.0551868 

Figura 5.12 Histograma da variavel bpop. 


Para observar o impacto dessas transformagoes nas relagoes entre as variaveis nata e 
pop, iremos solicitar as correlates por intermedio do seguinte comando: 

pwcorr nata pop lpop bpop, sig 

A variavel pop nao apresenta correlagao significativa com a variavel nata. Possivelmen- 
te, a assimetria excessiva da variavel original e a principal responsavel por tal situagao. 
Quando comparamos as variaveis transfermadas, vemos que ambas, apesar de nao 
apresentarem correlates significativas, possuem maior correlagao com a variavel nata 
do que com a variavel original (Resultados 5.18). 
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RESULTADOS 5.18 Correlates entre as variaveis. 


. pwcorr nata pop lpop bpop, sig 



1 

nata 

pop 

lpop 

bpop 

nata | 

1 

1.0000 




1 

pop | 

1 

-0.0529 

0.6431 

1.0000 



1 

lpop 1 

1 

0.0852 

0.4552 

0.6978 

0.0000 

1.0000 


1 

bpop | 

1 

1 

0.0756 

0.5081 

0.7329 

0.0000 

0.9982 

0.0000 

1.0000 


V_/ 


Para acessar a transforma^ao de Box-Cox, via barra de menus, devemos clicar nas 
seguintes op^oes: Data Create or change data Other variable-creation commands Box 
-Cox transform. Sera exibida uma janela, conforme a Figura 5.13. 



Figura 5.13 Janela de configuraqoes do comando bcskewO. 


O comando bcskewO (transforma^ao de Box-Cox com imposi^ao de assimetria 
nula para uma nova variavel bvar) faz com que seja gerado um parametro L tal que esta 
nova variavel se relacione com a variavel original (yar) por meio da seguinte expressao: 

b var = -ll (Equacao 5.2] 

L 

O comando bcskewO e muito utilizado para os casos em que a variavel dependente 
de um modelo de regressao nao apresenta distribui^ao normal, o que fere o primeiro 
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pressuposto da estimagao pelo metodo dos minimos quadrados ordinarios. Neste caso, 
uma nova variavel pode ser gerada a partir da variavel original, a fim de que eventualmen- 
te possa ser verificado o pressuposto da normalidade da variavel dependente do modelo, 
mesmo que este passe a ter uma diferente forma funcional. Cabe ao pesquisador defmir 
a melhor forma funcional do modelo a ser utilizado, em fungao da teoria subjacente e 
da sua experiencia, respeitando-se os pressupostos da estimagao. 

5.6. EXERCICIOS 

1. O arquivo salarios.dta apresenta dados sobre os salarios de 15 alunos recem-forma- 
dos no curso de Administrate de empresas.Traz tambem tres exemplos que contem, 
cada um deles, as notas fmais de RH e de econometria (de 0 a 10) que estes alunos 
tiraram na faculdade. Pede-se: 

a. Para cada um dos exemplos propostos, elabore o modelo de regressao linear 
multipla salario — f (nota de RH; nota de econometria). 

b. Apos elaborar cada um dos tres modelos, interprete os outputs com foco para o 
teste F e os testes t. Ha alguma inconsistency quando da analise destes outputs ? 

c. Elabore a matriz de correlates para as variaveis RH e econometria em cada um 
dos casos. As correlates s ^o muito altas, porem, diferentes de 1, em algum dos 
tres casos? Se sim, como voce interpretaria este fenomeno? 

d. Elabore e discuta as estatisticasVIF para cada um dos tres modelos. 

2. Por meio do arquivo Renda x Tempo Formado.dta, elabore o modelo de regressao 
linear simples renda —j (tempo deformado) e discuta a existencia de heterocedasticidade 
no modelo. Elabore um grafico de dispersao de renda —f (tempo formado) para auxiliar 
na discussao. 
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A regressao robusta e um metodo alternativo ao metodo dos minimos quadrados 
quando existem outliers e opta-se pela sua manuten^ao na analise. Alem disso, tambem 
pode ser utilizado para detectar pontos de influencia. O objetivo do presente capitulo e 
mostrar como aplicar varios comandos para a analise de dados com a presen^a de outliers 
em modelos de regressao. 

Continuaremos a utilizar, em nosso exemplo, a base de dados paises.dta. A referida 
base possui 79 observa^oes sobre dados simulados relativos a paises. E composta pelas 
variaveis descritas no Quadro 6.1. 

Na janela de comandos do aplicativo Stata® solicitaremos a abertura da base de 
dados paises.dta, utilizando o comando use (Resultados 6.1). Lembre-se de informar 
o endere^o completo de localiza^ao do arquivo paises.dta. 


( - 

RESULTADOS 6.1 Abertura do arquivo paises.dta. 




E . use "paises.dta" 

(Dados simulados sobre paises) 

_z 


Quadro 6.1 Variaveis que compoem a base de dados paises.dta 


Variavel 

Descrigao 

Tipo 

pais 

Pais 


pop 

Populagao 

Quantitativa 

nata 

Taxa de natalidade 

Quantitativa 

mort 

Taxa de mortalidade 

Quantitativa 

morl 

Mortalidade infantil (para crianga entre um e cinco anos) 

Quantitativa 

mor2 

Mortalidade infantil (para crianga com ate um ano) 

Quantitativa 

expe 

Expectativa de vida 

Quantitativa 

pibp 

PIB per capita 

Quantitativa 

urba 

Percentual da populagao urbana 

Quantitativa 

escl 

Percentual da popula^ao com primeiro grau 

Quantitativa 

esc2 

Percentual da populagao com segundo grau 

Quantitativa 
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6.1. OUTLIERS 

Na regressao linear, os residuos consistem na diferen^a entre o valor previsto (baseado 
na equa^ao da regressao) e o valor observado. Na regressao linear, urn outlier pode indicar 
uma observa^ao com altos valores dos residuos, em decorrencia de uma peculiaridade 
da amostra ou um erro na digita^ao dos dados. 

No Capitulo 5 come^amos a verificar algumas analises graficas para a detec^ao de 
outliers. Agora, procedemos no sentido de ampliar a lista de procedimentos utilizados 
para tal tarefa. 

Suponha que o nosso objetivo seja entender quais condigoes seriam capazes de 
explicar a taxa de mortalidade infantil (para crian^as com menos de um ano de idade), 
utilizando as caracteristicas dos paises. 

Inicialmente, estimaremos uma regressao linear multipla (Resultados 6.2), com o 
comando reg. Digitaremos o seguinte na janela de comandos: 

reg nata expe esc2 


( -\ 

RESULTADOS 6.2 Resultados da regressao multipla. 


. reg nata expe 

Source | 

esc2 

SS 

df 

MS 


Number of obs 
F ( 2, 76) 

Prob > F 
R-squared 

Adj R-squared 
Root MSE 

= 79 

= 137.46 

= 0.0000 
= 0.7834 

= 0.7777 

= 4.5771 

Model 

Residual 

1 

5759.56004 

1592.17166 

2 

76 

2879.78002 

20.9496271 

Total 

i 

7351.7317 

78 

94.2529705 

nata 

i 

Coef. 

Std. 

Err. t 

p>lt| 

[95% Conf. 

Interval] 

expe 


-.2912442 

.109392 -2.66 

0.009 

-.5091173 

-.0733711 

esc2 


-.2487269 

.0428599 -5.80 

0.000 

-.3340898 

-.163364 

_cons 

i 

58.06357 

5.36357 10.83 

0.000 

47.3811 

68.74605 


V_/ 


Todos os procedimentos para a detec^ao de outliers dependera de estatisticas que 
serao preditas apos a estima^ao de uma regressao. O comando utilizado e o predict, ja 
estudado, porem agora o apresentaremos com novas op^oes (Sintaxe 6.1). 

A primeira medida que utilizaremos e a distancia de leverage, que mensura o quanto 
uma observa^ao influencia os coeficientes de uma regressao. Uma observa^ao pode ser 
considerada como outlier se a distancia de leverage for maior que 2 • k / N, em que k e 
o numero de parametros (incluindo o intercepto) e N e o tamanho da amostra. Pontos 
com distancias elevadas podem apresentar um grande efeito na estima^ao dos coeficientes 
da regressao. 
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SINTAXE6.1 Comando predict. 

predict newvar [, leverage] [, cooksd] [, difts] [, covratio] 

Em que: 

• newvar: Nome da nova variavel que armazenara os valores previstos. 

• leverage: Opgao a ser utilizada para a geragao das distances de leverage. 

• cooksd: Opgao a ser utilizada para a gera^ao das distances de Cook. 

• difts: Opgao a ser utilizada para a geragao do indicador DfFit. 

• covratio: Opgao a ser utilizada para a geragao do indicador de covariancia. 


A distancia de leverage varia de 0 a 1.Valores proximos de 1 ou superiores a 0,5 podem 
indicar problemas. No Stata®, digitaremos o seguinte comando: 

predict lev, leverage 



\ 

RESULTADOS 6.3 Gerando as distancias de leverage. 


|| . predict lev, leverage | 



-j 


Agora que ja temos as distancias, precisamos calcular o valor critico que nos orientara 
na detecgao dos outliers. Para tanto, utilizaremos o comando display, que possui a seguinte 
sintaxe (Sintaxe 6.2). 


SINTAXE6.2 Comando display, 

display exp 

Em que: 

• exp: Expressao que sera calculada ou exibida na janela de resultados. 


Informaremos no Stata® o seguinte: 

display 2 * 4 / 79 


< > 
RESULTADOS 6.4 Exibindo o valor critico para comparar as distancias de 
leverage. 


. display 2 * 4 / 79 
.10126582^ 

s_> 
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Verificamos que o valor critico a ser utilizado e 0,101, com aproxima^ao. As ob- 
serva^oes com distancias de leverage , acima do valor critico, serao consideradas como 
outliers. Para identificar se ha observa^oes nessa situa^ao, iremos utilizar o comando list 
da seguinte forma: 

list pais mor2 nata escl esc2 lev if lev > 0.101 

Empregando esse criterio verificamos a existencia de duas observa^oes, que podem 
ser consideradas como outliers : 6 e 43 (Resultados 6.5). 


f > 

RESULTADOS 6.5 Detectando outliers utilizando as distancias 
de leverage. 


. list pais mor2 nata escl esc2 lev if lev > 0.101 

+-+ 



| pais 

mor2 

nata 

escl 

esc2 

lev 

6. 

i- 

6 

30.1 

23.814 

87.07093 

61.07163 

.1358258 

43. 

43 

95.8 

28.069 

71.92008 

28.03876 

.1070178 



Para acessar o comando predict, precisamos selecionar os seguintes comandos na 
barra de menus: Statistics Postestimation Predictions, residuals , etc. Aparecera a tela da 
Figura 6.1. 

O comando display pode ser acessado, via barra de menus, clicando-se nas seguintes 
op^oes: Data Other utilities Hand calculator (Figura 6.2). 



Figura 6.1 Janela de configuraqoes do comando predict selecionando-se a opqao Leverage. 
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Figura 6.2 Janela de configuraqoes do comando display. 


A distancia de Cook, outra medida utilizada para a detecgao de outliers , combina 
informagoes da distancia de leverage e dos residuos da observagao. Mede o quanto uma 
observagao influencia o modelo global ou os valores previstos. 

Uma observagao e considerada de grande influencia se a distancia de Cook e maior 
do que 4 / N, em que N e o tamanho da amostra. Assim, uma distancia maior do que 
1 indica um grande problema de outlier. 

No Stata®, iremos utilizar os seguintes comandos: 
predict cook, cooksd 
display 4/79 


/ - - - \ 

RESULTADOS 6.6 Gerando as distances de Cook e calculando o valor 
critico. 


. predict cook, cooksd 

. display 4/79 
.05063291 _ 

_z 


Para verificar a existencia de observagoes cuja distancia de Cook seja superior a 0,051, 
iremos utilizar o seguinte comando: 

list pais mor2 nata escl esc2 cook if cook > 0.051 

Caso optassemos pela distancia de Cook para o procedimento de detecgao de ou¬ 
tliers, identificariamos um total de oito observagoes: 10, 33, 37, 43, 45, 46, 69 e 73 
(Resultados 6.7). 

Para gerar as distancias de Cook, precisamos selecionar os seguintes comandos na 
barra de menus: Statistics Postestimation ~} Predictions, residuals, etc. Surgira uma tela, 
conforme a Figura 6.3. 
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RESULTADOS 6.7 Detectando outliers utilizando as distancias de Cook. 


• li£ 

3t 

pais mor2 nata escl esc2 cook if cook > 0.051 

■ + 

i 

1 

+ 

i 

i 

pais 

mor2 

nata 

escl 

esc2 

cook 

10. 

1 

i 

10 

165.7 

35.221 

68.05666 

10.655 

.0842769 

1 

i 

33. 

i 

33 

4.7 

21.5 

96.90646 

98.46043 

.066562 

i 

37. 

i 

37 

79.4 

37.824 

82.7824 

50.02514 

.0759514 

i 

43. 

i 

43 

95.8 

28.069 

71.92008 

28.03876 

.1898229 

i 

45. 

i 

i 

45 

95.4 

44.16 

96.89612 

26.92535 

.0743705 

i 

i 

46. 

1 

i 

46 

182.1 

46.914 

61.13494 

27.63603 

.1470478 

1 

i 

69. 

i 

69 

115.3 

29.652 

81.84889 

31.8434 

.0851279 

i 

73. 

i 

73 

68.2 

27.923 

96.88607 

84.04336 

.1057143 

i 


+ " 







" + 


V_/ 



Figura 6.3 Janela de configuraqoes do comando predict selecionando-se a opqao Cook's distance. 


O DfFit e o indicador de alavancagem e de residuos elevados. E outra medida que 
pode ser utilizada para a detec^ao de outliers. Mensura o quanto uma observa^ao influencia 
o modelo de regressao como um todo e o quanto os valores previstos sao alterados pela 
inclusao ou exclusao de uma observa^ao particular. 

Uma observa^ao e considerada outlier se | DfFlT | >2 • SQRT(k/N), em que keo nu- 
mero de parametros (incluindo o intercepto) e N e o tamanho da amostra (SQRT = raiz 
quadrada). 

Na janela de comandos do Stata®, digitaremos o seguinte: 
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predict dfits, dfits 
display 2 * sqrt(4 / 79) 


f > 

RESULTADOS 6.8 Gerando o indicador DfFit e calculando o valor critico. 

. predict dfits, dfits 

. display 2 * sqrt(4 / 79) 

.45003516 ___ 

v_/ 


Para verificar a existencia de observagoes cujo indicador DfFit, em modulo, seja 
superior a 0,450, iremos utilizar o seguinte comando: 

list pais mor2 nata escl esc2 dfits if abs(dfits) >0.450 

De acordo com esse criterio, oito observagoes foram consideradas como outliers. Os 
mesmos paises entao identificados quando empregamos as distancias de Cook, tambem 
o foram com o indicador DfFit (Resultados 6.9). 


< > 

RESULTADOS 6.9 Detectando outliers utilizando o indicador DfFit. 


, list 

+ ■ 

1 

i . 

pais mor2 nata escl esc2 

dfits if 

abs(dfits) : 

> 0.450 


pais 

mor2 

nata 

escl 

esc2 

dfits 

i 

i 

10. 

i 

10 

165.7 

35.221 

68.05666 

10.655 

-.5071271 

i 

33. 


33 

4.7 

21.5 

96.90646 

98.46043 

.4648895 


37. 


37 

79.4 

37.824 

82.7824 

50.02514 

.4859554 


43 . 


43 

95.8 

28.069 

71.92008 

28.03876 

- .7742453 


45. 

1 

45 

95.4 

44.16 

96.89612 

26.92535 

.4799896 

i 

46. 

1 

46 

182.1 

46.914 

61.13494 

27.63603 

.6856114 

i 

69. 


69 

115.3 

29.652 

81.84889 

31.8434 

- . 5097016 


73. 

i 

+ - 

73 

68.2 

27.923 

96.88607 

84.04336 

.5801554 

i 

-+ 


_/ 


Para gerar o indicador DfFit, via barra de menus, devemos selecionar as seguintes 
op^oes: Statistics Postestimation Predictions, residuals, etc. Sera exibida uma tela, 
conforme a Figura 6.4. 
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Figura 6.4 Janela de configuraqoes do comando predict selecionando-se a opgao DFITS. 


A ultima medida que apresentaremos e o indice de covariancia (COVRATIO). Esse 
indice mensura o impacto de uma observa^ao nos erros-padrao. O impacto e considerado 
alto se | COVRATIO - 11 > 3 • k / N, em que keo numero de parametros (incluindo o 
intercepto) e N e o tamanho da amostra. 

Na janela de comandos do Stata®, digitaremos o seguinte: 
predict cov, covratio 
display 3 * 4/79 


f > 

RESULTADOS 6.10 Gerando o indice de covariancia e calculando o valor 
critico. 


. predict cov, covratio 

. display 3 * 4 / 79 
.15189873 

_ / 


Para verificar a existencia de observa^oes cujo indice de covariancia menos 1, em 
modulo, seja igual ou superior a 0,152, iremos utilizar o seguinte comando: 
list pais mor2 nata escl esc2 cov if abs(cov - 1) >= 0.152 
De acordo com o indice de covariancia, foram identificadas oito observa^oes que 
seriam possiveis outliers: 6 e 33 (Resultados 6.11). 

Para gerar o indice de covariancia, via barra de menus, devemos selecionar as seguin- 
tes op^oes: Statistics Postestimation Predictions , residuals, etc. Sera exibida uma tela, 
conforme a Figura 6.5. 
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RESULTADOS 6.11 Detectando outliers utilizando o fndice 
de covariancia. 


. list pais mor2 nata escl esc2 cov if abs(cov - 1) >= 0.152 


pais 

mor2 

nata 

escl 

esc2 

cov 

6 

30.1 

23.814 

87.07093 

61.07163 

1.170002 

33 

4.7 

21.5 

96.90646 

98.46043 

.8122523 


J 



Figura 6.5 Janela de configuraqoes do comando predict selecionando-se a opqao COVRATIO. 


6.2. MODELOS 

Os modelos de regressao robusta visam ajustar as estimagoes realizadas pelo metodo 
dos minimos quadrados, considerando-se as particularidades da amostra. Na maioria das 
vezes, a presenga de outliers faz com que os pressupostos necessarios para a consistencia 
do estimador dos mmimos quadrados nao sejam alcangados. 

Existem tres principals modelos de regressao robusta: (i) regressao com erro-padrao ro- 
busto, (ii) regressao robusta com minimos quadrados ponderados e (iii) regressao quantilica. 

Retornando ao nosso exemplo, iremos verificar se os pressupostos do estimador dos 
minimos quadrados foram observados. 

Na janela de comandos do Stata®, iremos informar os seguintes comandos: 

estat hettest 

estat imtest, white 

predict res, residual 
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sfrancia res 
estat vif 

A partir dos resultados apresentados pelos testes solicitados (Resultados 6.12), verificamos 
que os residuos possuem distribui^ao normal e nao temos problemas de multicolinearidade. 


( ----- \ 

RESULTADOS 6.12 Testes acessorios para a regressao linear multipla. 


ireusch-Pagan / Cook-Weisberg test for heteroskedasticity 
Ho: Constant variance 
Variables: fitted values of nata 

chi2(1) = 6.62 

Prob > chi2 = 0.0101 

estat imtest, white 

White's test for Ho: homoskedasticity 

against Ha: unrestricted heteroskedasticity 

chi2(5) = 15.93 

Prob > chi2 = 0.0070 

lameron & Trivedi's decomposition of IM-test 


Source | 

chi2 

df 

P 

Heteroskedasticity | 

15.93 

5 

0.0070 

Skewness | 

5.88 

2 

0.0528 

Kurtosis | 

0.49 

1 

0.4856 

Total 1 

22.30 

8 

0.0044 


predict res, residual 
sfrancia res 




Shapiro 

-Francia W' 

test for 

normal data 

Variable 

l 

Obs 

W' 

V' 

z Prob>z 

res 

i 

79 

0.97769 

1.674 

1.003 0.15784 

estat vif 






Variable 

i 

VIF 

1/VIF 



esc2 

expe 


4.07 

4.07 

0.245887 

0.245887 



Mean VIF 

i 

4.07 
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Todavia, em ambos os testes para a detecgao de heterocedasticidade, com rnvel de signifi¬ 
cance de 5%, rejeitamos a hipotese nula de que os residuos sejam homocedasticos. 

A ocorrencia da heterocedasticidade faz com que os parametros estimados estejam 
enviesados. Provavelmente a heterocedasticidade decorre da presenga dos outliers, con- 
forme vimos anteriormente. 

A regressao com erro-padrao robusto permite que a estimagao obtenha estimadores 
nao enviesados. No Stata®, podemos realizar esse procedimento por meio do comando 
regress, que ja estudamos, porem agora com uma nova opgao (Sintaxe 6.3). 


SINTAXE6.3 Comando regress. 

regress depvar indepvars [, robust] [, duster(groupvar)] 

Em que: 

• depvar: Nome da variavel dependente. 

• indepvars: Lista de variaveis explicativas. 

• robust: Utiliza o erro-padrao robusto a heterocedasticidade e a ausencia de normalidade 
(estimador de Huber-White). 

• cluster: Utiliza o erro-padrao robusto, porem, considerando os grupos formados a partir da 
variavel de grupo (groupvar). 


Para realizar uma nova estimagao, iremos informar, na janela de comandos do Stata®, 
o seguinte: 

reg nata expe esc2, robust 

Na estimagao utilizando o erro-padrao robusto (Resultados 6.13), verificamos que 
nao ha alteragao dos coeficientes estimados.Todavia, as estatisticas utilizadas nos testes t 


--- ^ 

RESULTADOS 6.13 Resultados da regressao multipla com erro-padrao 

robusto. 


. reg nata expe esc2, robust 


Linear regression Number of obs = 79 

F( 2 , 76) = 95.82 
Prob > F = 0.0000 
R-squared = 0.7834 
Root MSE = 4.5771 


nata | 

Coef. 

Robust 

Std. Err. 

t 

p>it| 

[95% Conf. 

Interval] 

expe 

-.2912442 

.1332656 

-2.19 

0.032 

- .5566657 

-.0258227 

esc2 1 

-.2487269 

.0467293 

-5.32 

0.000 

-.3417965 

-.1556574 

_cons 1 

58.06357 

7.097591 

8.18 

0.000 

43.9275 

72.19965 


_ J 
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e F sao alteradas, visando corrigir os efeitos da presen^a de heterocedasticidade que ha 
nos residuos. 

Apos a estima^ao de uma regressao utilizando o erro-padrao robusto, o Stata® nao 
permitira a realiza^ao de testes para a detec^ao de homocedasticidade pois esse pres- 
suposto nao e valido para o estimador realizado. 

Para realizarmos uma regressao utilizando o erro-padrao robusto, por intermedio da 
barra de menus, precisamos selecionar as seguintes op^oes: Statistics ~} Linear models and 
related ~} Linear regression. Aparecera uma tela, conforme a Figura 6.6. 



Figura 6.6 Janelas de configuraqoes do comando regress. 


Outra forma de se utilizar a regressao com erro-padrao no Stata® ocorre quando 
temos uma variavel de grupo (cluster). Pode ocorrer que as observa^oes que pertencem 
a um mesmo grupo possuam comportamento diferente quando compadadas aquelas 
pertencentes a outro grupo. Busca-se garantir que os residuos das observa^oes de um 
grupo nao estejam correlacionados com os residuos das demais observa^oes nos outros 
grupos. 

No nosso exemplo, verificamos que a variavel pop possui uma distribui^ao assimetrica, 
indicando haver diferen^as entre os paises da amostra. Utilizaremos essa variavel para 
criar uma nova variavel de grupo, considerando faixas populacionais. Sera elaborado o 
comando gen com a fun^ao autocode (Sintaxe 6.4). 
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SINTAXE 6.4 Comando gen com a fun^ao autocode, 

gen newvar = autocode(varname, groups, min, max) 

Em que: 

• newvar: Variavel de grupo a ser criada. 

• varname: Variavel quantitativa a ser utilizada para a criagao de faixas. 

• groups: Quantidade de grupos a serem criados. 

• min: Valor minimo a ser observado, na criagao dos grupos. 

• max: Valor maximo a ser observado, na criagao dos grupos. 


Assim sendo, precisaremos saber quais os valores minimo e maximo da variavel pop. 
Digitaremos o seguinte comando: 

sum pop 

Conhecendo os valores limites da variavel (Resultados 6.14), iremos solicitar a 
criagao de 15 faixas, como tambem verificar a quantidade de grupos formados. Para 
tanto, digitaremos os seguintes comandos: 


< > 
RESULTADOS 6.14 Obtendo os valores minimo e maximo da variavel 
pop. 


. sum pop 







Variable | 

Obs 

Mean 

Std. Dev. 

Min 

Max 


pop | 

79 

2.78e+07 

5.09e+07 

109269 

3.07e+08 



_ J 


gen rpop = autocode(pop, 15, 109269, 3.07e08) 
tab rpop 

Podemos observar que foram criados 10 grupos e que o primeiro e composto pela 
maioria dos paises da amostra (Resultados 6.15). Apos a criagao da variavel de grupo, 
passaremos a nova estimagao utilizando a opgao cluster, 
reg nata expe esc2, cluster(rpop) 

Na estimagao utilizando o erro-padrao robusto e a opgao cluster, verificamos que, 
novamente, nao ha alteragao dos coeficientes estimados (Resultados 6.16).Todavia, as 
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/ --- \ 

RESULTADOS 6.15 Criando grupos a partir da variavel pop. 


. gen rpop = autocode(pop, 15, 109269, 3.07e08) 
. tab rpop 


rpop 

1 

Freq. 

Percent 

Cum. 

2.06e+07 

1 

55 

69.62 

69.62 

4.10e+07 

1 

8 

10.13 

79.75 

6.15e+07 

1 

5 

6.33 

86.08 

8.19e+07 

1 

5 

6.33 

92.41 

1.02e+08 

1 

1 

1.27 

93.67 

1.23e+08 

1 

1 

1.27 

94.94 

1.43e+08 

1 

1 

1.27 

96.20 

1.84e+08 

1 

1 

1.27 

97.47 

2.46e+08 

1 

1 

1.27 

98.73 

3.07e+08 

1 

1 

1.27 

100.00 

Total 

i 

79 

100.00 



_ / 


--- ^ 

RESULTADOS 6.16 Resultados da regressao multipla com erro-padrao 

robusto e op^ao cluster. 


. reg nata expe esc2, cluster(rpop) 


Linear regression Number of obs = 79 

F ( 2, 9) = 681.72 
Prob > F = 0.0000 
R-squared = 0.7834 
Root MSE = 4.5771 




(Std. 

Err. 

adjusted 

for 10 clusters 

in rpop) 

1 

nata | 

Coef. 

Robust 

Std. Err. 

t 

p>it| 

[95% Conf. 

Interval] 

expe | 

- .2912442 

.0355677 

-8.19 

0.000 

-.3717038 

-.2107846 

esc2 

- .2487269 

.0133332 

-18.65 

0.000 

-.2788887 

-.2185651 

cons 1 

58.06357 

2.06409 

28.13 

0.000 

53.39428 

62.73287 


V. 
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estatisticas utilizadas nos testes t e F sao alteradas, utilizando-se os grupos contidos na 
variavel rpop. De acordo com os resultados, verificamos que todas as variaveis foram 
consideradas significativas. 

Para acessar o comando generate (ou simplesmente gen) por meio da barra de 
menus, sera necessario clicar nas seguintes opgoes: Data ~} Create or change data ~} Create 
new variable. Surgira uma janela, conforme a Figura 6.7. 



Figura 6.7 Janela de configuraqdes do comando gen. 


Caso quisessemos acessar a regressao robusta com o uso da variavel de grupo, via 
barra de menus, precisariamos acessar as seguintes opgoes: Statistics ~} Linear models and 
related ~} Linear regression. Sera exibida uma janela, conforme a Figura 6.8. 



Figura 6.8 Janelas de configurates do comando regress. 
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O segundo modelo que analisaremos e a regressao robusta com rnmimos quadrados 
ponderados. Esse modelo atribui um peso a cada observa^ao, sendo que as observa^oes 
consideradas outliers recebem pesos mais baixos do que as observa^oes consideradas 
normals. As observa^oes cujas distancias de Cook forem superiores a 1 terao pesos quase 
nulos, de modo que nao afetarao a analise do todo. 

No Stata®, a regressao robusta com o estimador dos rnmimos quadrados ponderados 
e realizada por intermedio do comando rreg (Sintaxe 6.5). 


SINTAXE6.5 Comando rreg. 

rreg depvar indepvars [, level (#)] 

Em que: 

• depvar: Nome da variavel dependente. 

• indepvars: Lista de variaveis explicativas. 

• level: Estabelece o nivel de confianga, a ser utilizado. 0 padrao e 95%. 


Voltando para o nosso exemplo, iremos agora realizar uma regressao robusta utilizando 
o comando rreg. 

rreg nata expe esc2 

Ao compararmos os resultados da regressao robusta (Resultados 6.17) com o modelo 
anterior, verificamos que os coeficientes estimados nao sao os mesmos, assim como as 
estatisticas dos testes t e E 


RESULTADOS 6.17 Resultados da regressao multipla robusta. 


Huber 

iteration 

1 

maximum 

difference 

in 

weights 

= 

.45877655 

Huber 

iteration 

2 

maximum 

difference 

in 

weights 

= 

. 0604747 

Huber 

iteration 

3 

maximum 

difference 

in 

weights 

= 

.03721806 

Biweight 

iteration 

4 

maximum 

difference 

in 

weights 

= 

.1544047 

Biweight 

iteration 

5 

maximum 

difference 

in 

weights 

= 

. 03512046 

Biweight 

iteration 

6 

maximum 

difference 

in 

weights 

= 

. 00601326 


rreg nata expe esc2 


Robust regression 


Number of obs 
F ( 2, 76) 
Prob > F 


79 

125.48 

0.0000 


nata | 

Coef. 

Std. Err. 

t 

P>|t| 

[95% Conf. 

Interval] 

expe | 

-.2385164 

.1148222 

-2.08 

0.041 

-.4672047 

-.0098281 

esc2 j 

-.2691987 

.0449875 

-5.98 

0.000 

- .358799 

-.1795984 

cons j 

55.56088 

5.629818 

9.87 

0.000 

44.34812 

66.77363 


Entretanto, as significancias estatisticas dos parametros, bem como suas magnitudes 
e seus sinais, mudam muito pouco em rela^ao ao modelo anterior. 
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A realizagao de uma regressao robusta com minimos quadrados ponderados e possivel, 
por meio da barra de menus, quando acessamos as seguintes opgoes: Statistics Linear 
models and related Other Robust regression. Sera exibida uma tela, conforme a Figura 6.9. 



Figura 6.9 Janela de configuraqoes do comando rreg. 


O terceiro modelo de regressao robusta e a regressao quantilica, que geralmente utiliza 
a mediana no lugar da media, uma vez que a primeira medida de tendencia e menos 
sensivel a presenga de outliers do que a segunda. 

O comando qreg e utilizado no Stata® para a estimagao de uma regressao quantilica 
(Sintaxe 6.6). 


SINTAXE6.6 Comando qreg. 

qreg depvar indepvars [, level(#)] [, quantile(#)] 

Em que: 

• depvar: Nome da variavel dependente. 

• indepvars: Lista de variaveis explicativas. 

• level: Estabelece o nivel de confianga a ser utilizado. 0 padrao e 95. 

• quantile: Estabelece qual o quartil que sera utilizado. O padrao e a mediana. 


Voltando ao nosso exemplo, dessa vez utilizaremos a regressao quantilica para estimar 
os parametros. Digitaremos, na janela de comandos do Stata®, o seguinte: 

qreg nata expe esc2 

Mais uma vez, podemos notar que os coeficientes estimados sao um pouco diferentes 
daqueles estimados pelos demais modelos (Resultados 6.18). Ocorre o mesmo em relagao 
as estatisticas t e F. Verificamos que a variavel expe nao foi considerada significativa. 
















ELSEVIER 


166 Metodos Quantitativos com Stata® 


--- ^ 

RESULTADOS 6.18 Resultados da regressao multipla quantilica. 


. qreg nata expe esc2 


Iteration 

1: 

WLS sum of 

weighted 

deviations 

= 

286.20656 

Iteration 

1: 

sum 

of 

abs. 

weighted 

deviations 

- 

288.34847 

Iteration 

2: 

sum 

of 

abs. 

weighted 

deviations 

= 

281.70063 

Iteration 

3: 

sum 

of 

abs. 

weighted 

deviations 

= 

281.60575 

Iteration 

4 : 

sum 

of 

abs. 

weighted 

deviations 

= 

281.40662 

Iteration 

5: 

sum 

of 

abs. 

weighted 

deviations 

= 

281.32964 

Iteration 

6: 

siim 

of 

abs. 

weighted 

deviations 

= 

281.30759 

Iteration 

7: 

sum 

of 

abs. 

weighted 

deviations 

= 

281.19304 

Median regress 

lion 






Number 


Raw 

Min 

sum of 
sum of 

deviations 

deviations 

592.829 (about 
281.193 

17.299) 


Pseudo R2 = 

0.5257 


nata 

| Coef. 

Std. Err. 

t 

p>it| 

[95% Conf. 

Interval] 


expe 

esc2 

cons 

-.1039535 

-.347753 
51.58224 

.141015 

.0546021 

6.890498 

-0.74 

-6.37 

7.49 

0.463 

0.000 

0.000 

-.3848092 

- .4565024 
37.85863 

.1769022 

- .2390035 
65.30586 


_ / 


Por meio da barra de menus, podemos realizar uma regressao quantilica selecionando 
as seguintes op^oes: Statistics ~} Nonparametric analysis ~} Quantile regression. Sera exibida 
uma tela, conforme a Figura 6.10. 



Figura 6.10 Janela de configurates do comando qreg. 
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6.3. EXERCICIO 

1. O arquivo Imovel Comercial.dta traz dados sobre prego medio de aluguel de 
escritorios comerciais por metro quadrado localizados em 20 distritos municipais, 
bem como as taxas de vacancia de cada uma destas localidades. A taxa de vacancia 
refere-se ao percentual de area util disponivel para locagao em cada distrito, calculada 
em relagao ao estoque total do mercado em determinado periodo.Trata-se,portanto, 
de um indicador da relagao entre oferta e demanda de espagos para escritorios, em 
dado periodo, induzindo ou inibindo as decisoes de investimento na expansao do 
estoque de areas para locagao comercial e permitindo a elaboragao de prognosticos 
envolvendo tendencias de excesso de oferta no mercado. 

Isto posto, pede-se: 

a. Elabore um grafico de dispersao para avaliar o comportamento de prego por metro 
quadrado — f (taxa de vacancia). 

b. Por meio deste grafico, e possivel identificar um outlier ? 

c. Elabore uma regressao linear simples nao robusta a outliers para avaliar o compor¬ 
tamento de prego por metro quadrado —f (taxa de vacancia) e salve os valores previstos 
gerados por meio deste modelo. 

d. Elabore agora uma regressao linear simples robusta a outliers para avaliar o com¬ 
portamento de prego por metro quadrado — f (taxa de vacancia) e salve tambem os 
valores previstos gerados por meio deste novo modelo. 

e. Elabore um grafico de dispersao que contenha simultaneamente as retas corres- 
pondentes aos valores previstos em cada um dos modelos elaborados e discuta os 
resultados. 


7 


CAPITULO 


Regress! o Logi'stica 


Vamos iniciar nosso estudo da regressao logistica binominal por meio da sua compa- 
ragao com a regressao tradicional por minimos quadrados ordinarios.Talvez a diferenga 
mais obvia entre a regressao com o estimador dos minimos quadrados ordinarios e a 
regressao logistica seja que, na primeira, a variavel dependente e continua e na regres¬ 
sao logistica binomial, a variavel dependente e uma variavel codificada como 0 e 1 
(dummy). Uma vez que a variavel dependente e binaria, pressupostos sao mais flexiveis 
na regressao logistica do que aqueles estabelecidos na regressao linear tradicional. 

A regressao logistica e similar ao metodo dos minimos quadrados no sentido de se 
permitir identificar quais variaveis sao estatisticamente significativas na analise. Diagnos¬ 
tics sao utilizados para avaliar se os pressupostos sao validos, havendo teste para verificar 
se o modelo geral e estatisticamente significativo, com um coeficiente e um erro-padrao 
para cada variavel explicativa (UCLA, 2013). 

Usaremos em nossos exemplos a base de dados nlsw88.dta, que comumente e instalada 
no mesmo diretorio que o Stata®. A referida base de dados possui 2.246 observagoes sobre o 
censo norte-americano de 1988, apenas para trabalhadores do sexo feminino (Quadro 7.1). 

Quadro 7.1 Variaveis que compoem a base de dados nlsw88.dta 


Variavel 

Descrigao 

Tipo 

idcode 

Codigo 


age 

Idade 

Quantitativa 

race 

Raga (1 - branco / 2 - negro / 3 - outra) 

Qualitativa 

married 

Estado civil (0 - solteiro / 1 - casado) 

Qualitativa 

never_married 

Nunca casou (0 - nao / 1 - sim) 

Qualitativa 

grade 

Escolaridade em anos 

Quantitativa 

collgrad 

Possui ensino superior (0 - nao / 1 - sim) 

Qualitativa 

south 

Mora na regiao sul (0 - nao / 1 - sim) 

Qualitativa 

smsa 

Mora em regiao metropolitana (0 - nao / 1 - sim) 

Qualitativa 

c_city 

Mora na capital (0 - nao / 1 - sim) 

Qualitativa 

industry 

Setor 

Qualitativa 

occupation 

Ocupagao 

Qualitativa 

union 

Sindicalizado (0 - nao / 1 - sim) 

Qualitativa 

wage 

Salario por hora 

Quantitativa 

hours 

Carga horaria 

Quantitativa 

ttl_exp 

Experiencia profissional 

Quantitativa 

tenure 

Tempo no emprego 

Quantitativa 
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O primeiro passo sera acionar o aplicativo Stata® e, apos a inicializagao do mesmo, 
iremos solicitar a abertura da base de dados nlsw88.dta, utilizando o comando sysuse. 
sysuse nlsw88 


r 




RESULTADOS 7.1 Abertura do arquivo nlsw88.dta. 



I| . sysuse nlsw88 | 



1 (NLSW, 1988 extract) | 


c. 


> 


7.1. REGRESSAO LOGISTICA 


Na regressao logistica, temos o interesse em avaliar a probabilidade p de ocorrencia 
de um determinado evento com base no comportamento de variaveis explicativas.Desta 

forma, sabendo-se que a chance de ocorrencia de um evento e dada por chance = 

o modelo de regressao logistica pode ser defmido de acordo com o apresentado no 
Quadro 7.2. 



Quadro 7.2 Modelo de regressao logistica 


In ( chance ) = Z = a + (3 1 x 1 + fi 2 x 2 +... + / 3 k x k 

que, ao se desenvolver, chega-se a: 

1 1 

P I _|_ g-Z | _|_ ^~{ a+ P\ x l + p2 x 2 +-+Pk x k) 

Em que: 

Z: conhecido por logit ; 

p: probabilidade estimada de ocorrencia do evento de interesse; 
x: sao as variaveis explicativas, com i— 1, 2,..., k; e 
a e /3: sao os parametros do modelo. 


[Equagao 7.1] 


[Equagao 7.2] 


Para ilustrarmos a diferen^a entre a regressao linear e a regressao logistica, vamos ver 
o que acontece quando uma variavel dependente binaria e utilizada em uma regressao 
linear com o estimador dos minimos quadrados ordinarios. 

Considere que estamos interessados em estabelecer as caracteristicas, por meio das quais 
poderemos identificar a probabilidade de uma trabalhadora ser sindicalizada ou nao (variavel 
union). Inicialmente, consideraremos como variavel explicativa apenas a variavel wage. 
Digitaremos na janela de comandos do Stata® o seguinte: 
reg union wage 
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RESULTADOS 7.2 Resultados da regressao linear simples. 


. reg union wage 


Source 

1 

ss 

df 

MS 


Number of obs 
F( 1, 1876) 

Prob > F 
R-squared 

Adj R-squared 
Root MSE 

= 1878 

= 44.23 

= 0.0000 
= 0.0230 

= 0.0225 

= .42561 

Model 

Residual 


8.0124801 

339.824048 

1 

1876 

8.0124801 

.181142883 


Total 

! 

347.836528 

1877 

.185315146 


union 

i 

Coef. 

Std. 

Err. t 

p>lt| 

[95% Conf. 

Interval] 

wage 

cons 

i 

.0156742 

.126892 

.0023567 6.65 

.0203557 6.23 

0.000 

0.000 

.0110521 

.0869698 

.0202963 

.1668143 


_ / 


Como podemos observar, o Stata® realizou a estimagao e exibe um resultado satis- 
fatorio para uma regressao simples. Apesar do R 2 baixo, os testes F e t indicam que 
o coeficiente da variavel explicativa e significativo (Resultados 7.2). Entretanto, este 
procedimento esta errado! Vamos observar o comportamento das variaveis nesta 
estimagao. Escreveremos na janela de comandos o seguinte: 
twoway (scatter union wage) (lfit union wage) 

f > 

RESULTADOS 7.3 Gerando o grafico de dispersao e a reta estimada 
pela regressao. 



v_/ 

No grafico da Figura 7.1 estao plotados os valores previstos (denominados Fitted values; 
na legenda, a reta) para os valores observados da variavel union (os pontos). Porem, ao ana- 
lisarmos o grafico, percebemos que a linha que representa as estimativas da regressao linear 
nao e capaz de se ajustar de maneira satisfatoria ao comportamento dos pontos observados. 

Agora vamos realizar a mesma analise com a regressao logistica. Para isso, utilizaremos 
o comando logit (Sintaxe 7.1). 


SINTAXE7.1 Comando logit, 

logit depvar indepvars [, nocons] [, level(#)] 

Em que: 

• depvar: Nome da variavel dependente. 

• indepvars: Lista de variaveis explicativas. 

• nocons: Opgao a ser utilizada quando nao se deseja a presenga da constante no modelo regressivo. 

• level: Estabelece o nivel de confianga, a ser utilizado. 0 padrao e 95%. 
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Figura 7.1 Grafico de dispersao e reta estimada da regressao. 


Informaremos no Stata® o seguinte comando: 

logit union wage 


f > 

RESULTADOS 7.4 Resultados da regressao logi'stica. 


. logit union 

wage 




Iteration 0: 

log likelihood = -1046.6242 




Iteration 1: 

log likelihood = -1026.6546 




Iteration 2: 

log likelihood = -1026.3804 




Iteration 3i 

log likelihood = -1026.3804 




Logistic regression 

Number 

of obs = 

1878 



LR chi2(1) 

40.49 



Prob > 

chi2 = 

0.0000 

Log likelihood 

= -1026.3804 

Pseudo 

R2 

0.0193 

union | 

Coef. Std. Err. z 

p>M 

[95% Conf. 

Interval] 

wage [ 

.078016 .0122888 6.35 

0.000 

.0539304 

.1021017 

_cons | 

-1.737004 .1136012 -15.29 

0.000 

-1.959658 

-1.51435 



V_/ 


Apos a estima^ao da regressao logistica (Resultados 7.4), vamos solicitar ao Stata® que 
seja gerada a serie de valores previstos, de acordo com o modelo estimado, para que pos- 
samos estudar a diferen^a entre esse modelo e o modelo de regressao linear (Figura 7.2). 
Utilizaremos o comando predict (Sintaxe 7.2). 
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Figura 7.2 Grafico de dispersao e a curva de probabilidade estimada. 


SINTAXE7.2 Comando predict. 

predict newvar [, p] 

Em que: 

• newvar: Nome da nova variavel que armazenara os valores previstos. 

• p: Opgao a ser utilizada para a gera^ao das probabilidades de acordo com o modelo da 
regressao. 


Primeiramente, sera criada a variavel ( unionp ) que contem as probabilidades previs¬ 
tas pelo modelo para a ocorrencia do evento de interesse (ser sindicalizada) para cada 
observagao. Na sequencia, os graficos para estudo do comportamento da regressao logis¬ 
tica serao plotados. Na janela de comandos, digitaremos o seguinte: 

predict unionp, p 

twoway (scatter union wage) (connected unionp wage, sort) 

( --- \ 

RESULTADOS 7.5 Gerando grafico de dispersao e a curva de probabilidade 

estimada pela regressao. 


. predict unionp, p 

. twoway (scatter union wage) (connected unionp wage, sort) 
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Podemos observar que os valores estimados nao formam mais uma reta, mas, sim, 
uma curva S. Alem do mais, os valores ficam limitados entre 0 e 1. O que a regressao 
logistica estima nao sao os valores da variavel dependente, mas, sim, a probabilidade de 
ocorrencia de um dos dois valores assumidos pela variavel dependente (evento). 

Caso desejassemos acessar o comando logit, utilizando a barra de menus, precisa- 
riamos selecionar as seguintes op^oes: Statistics ~} Binary outcomes ~} Logistic regression. 
Surgira uma janela, conforme a Figura 7.3. 

Para acessar o comando predict, precisamos selecionar as seguintes op^oes na barra 
de menus: Statistics ~} Postestimation ~} Predictions, residuals, etc. Aparecera uma janela, 
conforme a Figura 7.4. 



Figura 7.3 Janela de configuraqoes do comando logit. 



Figura 7.4 Janela de configuraqoes do comando predict. 
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7.2. GRAFICOS E ESTATISTICAS 


Passamos agora a analise mais aprofundada da regressao logistica.Vamos ampliar o nosso 
exemplo utilizando as seguintes variaveis explicativas: wage, tenure, collgrad, south e c_city. 
Assim sendo, solicitamos ao Stata® que realize a seguinte regressao: 

logit union wage tenure collgrad south c_city 


RESULTADOS 7.6 Resultados da regressao logistica. 


. logit union wage tenure collgrad south c_city 


Iteration 0: 

log likelihood = 

-1042.6816 




Iteration Is 

log likelihood = 

-986.93788 




Iteration 2: 

log likelihood = 

-985.79366 




Iteration 3: 

log likelihood = 

-985.79271 




Iteration 4: 

log likelihood = 

-985.79271 




Logistic regression 


Number of obs 

= 

1868 




LR chi2(5) 

= 

113.78 




Prob > chi2 

= 

0.0000 

Log likelihood 

= -985.79271 


Pseudo R2 

= 

0.0546 


union 


Coef. 

Std. Err. 

z 

P> 1 z | 

[95% Conf. 

Interval] 

wage 


.0379502 

.0140155 

2.71 

0.007 

.0104803 

.0654201 

tenure 


.0418208 

.0096591 

4.33 

0.000 

.0228893 

.0607523 

collgrad 


.3046521 

.1313169 

2.32 

0.020 

.0472758 

.5620285 

south 


-.721241 

.1193708 

-6.04 

0.000 

-.9552035 

-.4872784 

c city 


.5001731 

.1181077 

4.23 

0.000 

.2686862 

.73166 

cons 


-1.680031 

.1395996 

-12.03 

0.000 

-1.953642 

-1.406421 




J 


Inicialmente, por meio da analise dos Resultados 7.6,precisamos verificar a qualidade 
de ajuste do modelo. De modo similar ao teste F da regressao linear, o teste da razao 
da verossimilhanga (LR test) utiliza uma estatistica com distribuigao qui-quadrado para 
analisar a significancia conjunta do modelo. As hipoteses desse teste sao: H Q \ todos os 
parametros sao iguais a zero, e H : ha pelo menos um parametro diferente de zero. 

Com um p-valor inferior a 0,0001, e rejeitada a hipotese nula do teste da razao da 
verossimilhanga e, portanto, existe pelo menos uma variavel explicativa cujo parametro 
possui significancia estatistica no modelo logistico. 

Na regressao logistica, o poder explicativo do modelo e frequentemente avaliado 
pelo Pseudo R 2 . Essa estatistica e similar ao R 2 da regressao linear, porem, seu uso e mais 
restrito do que oRlO Pseudo R 2 e majoritariamente utilizado em modelos logisticos 
para se avaliar o ajuste quando da comparagao com outros modelos. 

Para verificarmos a significancia individual de cada parametro estimado, o Stata® nos 
fornece o teste Z, que funciona de maneira analoga ao teste t da regressao linear. Nos 
resultados anteriores, verificamos que todas as variaveis explicativas e a constante foram 
consideradas significativas a um nivel de 5%. 
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De acordo com os sinais estimados e o comportamento das variaveis explicativas, 
verificamos que, quanto maior for o salario, preservadas as demais condigoes, maior sera 
a probabilidade de uma empregada ser sindicalizada. O mesmo deve ser considerado em 
rela^ao ao tempo no emprego. 

Em rela^ao as dummies collgrad e c_city , notamos que, se a trabalhadora possuir nivel 
superior e/ou morar em uma capital, aumenta a probabilidade de ser sindicalizada. 
Todavia, mantidas as demais condi^oes constantes, se uma trabalhadora residir na regiao 
sul, a probabilidade de ser sindicalizada diminui. 

Antes de continuarmos a analise sobre o papel de cada variavel explicativa, apresen- 
taremos outras medidas importantes para verificar o ajustamento do modelo logistico. 

O teste Hosmer-Lemeshow Goodness-of-fit avalia se ha diferen^as significativas 
entre as frequences observadas e as observadas, a partir da estratifica^ao dos valores das 
observa^oes em faixas. As hipoteses do teste sao as seguintes: H Q : ha associa^ao, e Hy nao 
ha associa^ao. Se houver associa^ao, significa que o modelo pode ser considerado ajustado. 
No Stata®, a realiza^ao desse teste e feita por meio do comando estat gof (Sintaxe 7.3). 

SINTAXE7.3 Comando estat gof. 

estat gof [, group(#)] 

Em que: 

• group: Caso queira que seja exibida a variavel orginal do teste Hosmer-Lemeshow e 
necessario informar o numero de grupos (#). Caso contrario, o teste sera realizado com a 
estatistica qui-quadrado de Pearson. 


Devemos digitar no Stata® o seguinte comando: 

estat gof 


( -\ 

RESULTADOS 7.7 Teste Hosmer-Lemeshow. 


. estat gof 


Logistic model for union, goodness 

-of-fit test 

number of observations = 

1868 

number of covariate patterns = 

1854 

Pearson chi2(1848) = 

1843.03 

Prob > chi2 = 

0.5283 


V_/ 


Verificamos que, com um p-valor superior a 0,52, nao rejeitamos a hipotese nula 
de que ha associa^ao entre os valores observados e os previstos e, consequentemente, o 
modelo pode ser considerado como tendo um bom ajuste (Resultados 7.7). 
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Para acessar o comando, via barra de menus, precisamos clicar nas seguintes opgoes: Statis¬ 
tics Postestimation Reports and statistics. Sera exibida uma janela, conforme a Figura 7.5. 

Outra forma de se avaliar um modelo logistico e observar a tabela de classificagao 
do modelo, considerando as medidas de sensitividade, especificidade e o percentual de 
acerto do modelo. No Stata®, podemos solicitar a tabela de classificagao do modelo por 
meio do comando estat class (Sintaxe 7.4). 

SINTAXE7.4 Comando estat class. 

estat class [, cutoff(#)] 

Em que: 

• cutoff: Caso deseje alterar o ponto de corte, basta informar essa opgao com o respectivo 
valor. Por padrao, o Stata® trabalha com um ponto de corte de 0,5. 



Figura 7.5 Janela de configuragdes do comando estat, selecionando-se a opgao gof. 

Solicitaremos a tabela de classificagao, digitando o seguinte comando: 

estat class 

Na parte superior dos Resultados 7.8 sao apresentados os valores observados e, na 
parte inferior, os valores previstos. Observamos que foram utilizadas 1.868 observagoes. 

A sensitividade diz respeito ao total de acerto que o modelo obtem em relagao ao 
evento (ou seja, ao fato de a trabalhadora ser sindicalizada). Podemos verificar na parte 
superior dos Resultados 7.8 que o modelo consegue classificar corretamente 25 traba- 
lhadoras sindicalizadas de um total de 460 (25 / 460 = 0,0543). 

A especificidade, ao contrario, se refere ao total de acertos que o modelo obtem em 
relagao ao nao evento de interesse (isto e, ao fato de a trabalhadora nao ser sindicalizada). 
O modelo consegue classificar corretamente 1.382 trabalhadoras nao sindicalizadas de 
um total de 1.408 (1.382 / 1.408 = 0,9815). 
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RESULTADOS 7.8 Tabela de classifica^ao do modelo. 


. estat class 



Logistic model for union 



- True - 

Classified | D 

-D | 

Total 

+ | 25 

| 435 

26 

1382 

51 

1817 

Total | 460 

1408 | 

1868 

Classified + if predicted Pr(D) 
True D defined as union 1= 0 

>= .5 


Sensitivity 

Specificity 

Positive predictive value 
Negative predictive value 

Pr( +| D) 
Pr( -|~D) 
Pr( D +) 
Pr(~D| -) 

5.43% 

98.15% 

49.02% 

76.06% 

False + rate for true ~D 

False - rate for true D 

False + rate for classified + 
False - rate for classified - 

Pr ( +|~D) 
Pr( -| D) 
Pr(-D j +) 
Pr( D| -) 

1.85% 

94.57% 

50.98% 

23.94% 

Correctly classified 


75.32% 



De modo geral, o modelo logistico conseguiu classificar corretamente 75,32% das 
observances analisadas ([25 + 1.382] / 1.868 = 0,7532). 

Para acessar o comando, por intermedio da barra de menus, precisamos clicar nas 
seguintes op^oes: Statistics ~} Postestimation Reports and statistics. Sera exibida uma 
janela, conforme a Figura 7.6. 

A rela^ao entre as estatisticas sensitividade, especificidade e ponto de corte ( cutoff) 
pode ser visualizada graficamente, quando utilizamos o comando lsens (Sintaxe 7.5). 


SINTAXE7.5 Comando lsens. 

lsens [, genp(varnamel)] [, gense(varname2)] [, gensp(varname3)] 

Em que: 

• genp: Gera uma variavel que contera as probabilidades dos pontos de corte. 

• gense: Gera uma variavel que contera a sensitividade para cada probabilidade dos pontos de corte. 

• gensp: Gera uma variavel que contera a especificidade para cada probabilidade dos pontos 
de corte. 
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Figura 7.6 Janela de configuraqoes do comando estat, selecionando-se a opgao class. 


Devemos digitar o seguinte comando: 

lsens 


f > 

RESULTADOS 7.9 Gerando o grafico das probabilidades dos pontos de corte 
versus sensitividade e especificidade. 



V_/ 


Conforme observamos nos Resultados 7.8, o modelo com ponto de corte de 
0,50 consegue prever com maior precisao as trabalhadoras nao sindicalizadas do que 
as sindicalizadas. Se esse for o objetivo esperado do modelo, nao serao necessarios 
ajustes. 

Entretanto, caso desejassemos um modelo com melhor equilibrio entre sensitividade 
e especificidade, com maior sensitividade ou com mais especificidade, precisariamos 
alterar o ponto de corte. A analise do grafico apresentado na Figura 7.7 nos permitiria 
identificar qual seria um novo e adequado ponto de corte para o que e pretendido na 
analise decisoria. 

Vamos alterar o ponto de corte, por exemplo, para 0,25. Digitaremos na janela de 
comandos o seguinte: 

estat class, cutoff(0.25) 
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Sensitivity -•- Specificity 


Figura 7.7 Grafico das probabilidades dos pontos de corte versus sensitividade e especificidade. 

< > 

RESULTADOS 7.10 Tabela de classificagao do modelo. 


. estat class, cutoff(0.25) 




Logistic model for union 




- True - 




Classified | D 

~D 

1 

Total 





+ | 273 

504 

1 

777 

| 187 

904 

1 

1091 





Total | 460 

1408 

1 

1868 

Classified + if predicted Pr(D) 

V 

ii 

to 

U1 



True D defined as union != 0 




Sensitivity 

Pr( +| 

D) 

59.35% 

Specificity 

Pr( -| 

~D) 

64.20% 

Positive predictive value 

Pr ( D j 

+ ) 

35.14% 

Negative predictive value 

Pr(~D| 

-) 

82.86% 

False + rate for true ~D 

Pr( +| 

~D) 

35.80% 

False - rate for true D 

Pr( - | 

D) 

40.65% 

False + rate for classified + 

Pr (-D 

+ ) 

64.86% 

False - rate for classified - 

Pr ( D | 

-) 

17.14% 

Correctly classified 



63.01% 





J 
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Considerando um ponto de corte de 0,25,podemos observar que tanto o acerto geral 
quanto a especificidade foram menores do que na classificagao anterior, que utilizou um 
ponto de corte de 0,50. Porem, a sensitividade, que anteriormente foi de 5,43%, passou 
para 59,35% (Resultados 7.10). A alteragao do ponto de corte dependera do uso que se 
fara do modelo regressivo e do que e pretendido pelo pesquisador em termos preditivos 
para uma melhor tomada de decisao. 

Para acessar o comando lsens, por intermedio da barra de menus, precisamos clicar 
nas seguintes opgoes: Statistics ~} Binary outcomes ~} Postestimation ~} Sensitivity/specificity 
plot. Surgira uma janela, conforme a Figura 7.8. 

A curva ROC (. Receiver Operating Characteristic) e uma medida sobre a capacidade de 
o modelo discriminar as categorias da variavel dependente. Caso a area sob a curva seja 
menor ou igual a 0,5, o modelo nao consegue discriminar as categorias. Se a area alcangar 
valores acima de 0,8, o modelo possui poder discriminatorio excelente, enquanto, nos 
demais casos, o poder discriminatorio e apenas aceitavel. 

No Stata®,para gerar a curva ROC (Figura 7.9),utilizamos o comando lroc (Sintaxe 7.6). 


SINTAXE7.6 Comando lroc. 

lroc [, nograph] 

Em que: 

• nograph: Exibe apenas a area da curva ROC, sem gerar o grafico. 


A area sob a curva ROC e de 0,662, o que indica que o modelo nao apresenta um 
poder discriminatorio elevado (Resultados 7.11 e Figura 7.9). Percebemos essa situagao 
quando verificamos que a sensitividade do modelo e baixa. Alem disso, o Pseudo R 2 
demonstra que o poder explicativo do modelo tambem e baixo. 



Figura 7.8 Janela de configuraqoes do comando lens. 
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Figura 7.9 CurvaROC. 


\ 

RESULTADOS 7.11 Gerando a curva ROC. 


. lroc 



Logistic model 

for union 


number of observations = 

1868 

area under ROC 

curve = 

0.6617 


_7 


Para acessar o comando lroc, por meio da barra de menus, basta clicarmos nas 
seguintes opcoes: Statistics Binary outcomes Postestimation ROC curve after logistic/ 
logit /probit/ivprobit. Aparecera uma janela, conforme a Figura 7.10. 

Voltamos a analise sobre o papel de cada variavel explicativa. Para isso, analisaremos o 
impacto dessas variaveis considerando os respectivos efeitos em rela^ao a probabilidade 
de uma trabalhadora ser sindicalizada. 

Para identificarmos a influencia do parametro de cada variavel explicativa sobre 
o comportamento da variavel dependente em termos da razao de chance de ocorren- 
cia do evento em questao, ou seja, em termos de odds ratio , utilizaremos, no Stata®, o 
comando logistic (Sintaxe 7.7). 









Regressao Logistica 183 


SINTAXE 7.7 Comando logistic, 

logistic depvar indepvars [, nocons] [, level(#)] 

Em que: 

• depvar: Nome da variavel dependente. 

• indepvars: Lista de variaveis explicativas. 

• nocons: Opgao a ser utilizada quando nao se deseja a presenga da constante no modelo 
regressivo. 

• level: Estabelece o nivel de confianga a ser utilizado. O padrao e 95%. 



Figura 7.10 Janela de configuraqoes do comando Iroc. 

Vamos, portanto, digitar o seguinte comando: 

logistic union wage tenure collgrad south c_city 

Os resultados apresentados sao os mesmos dos obtidos com o comando logit, com 
excegao dos coeficientes estimados que nao sao exibidos.Ao inves destes,sao apresen- 
tadas as razoes de chance, ou odds ratios (Resultados 7.12). A razao de chance de uma 
variavel nos informara a mudanga na chance de ocorrencia do evento de interesse ao se 
alterar em uma unidade esta mesma variavel, mantidas as demais condigoes constantes. 

Por exemplo, a cada aumento de uma unidade no salario, aumenta-se em 1,0387 
vezes (um aumento de 3,87%) a chance de uma trabalhadora ser sindicalizada 
(1,0387 - 1 = 0,0387), mantidas as demais condigoes constantes. Se determinada traba¬ 
lhadora morar na regiao sul, multiplica-se por 0,4861 vezes (uma redugao de 51,39%) 
a chance de ser sindicalizada (0,4861 - 1 = -0,5139), mantidas as demais condigoes 
constantes. Se outra trabalhadora morar em uma capital, aumenta-se em 1,6490 vezes 
(um aumento de 64,90%) a chance de ser sindicalizada (1,6490 - 1 = 0,6490), tambem 
mantidas as demais condigoes constantes. 

Por intermedio da barra de menus, podemos acessar o comando logistic (Figura 7.11), 
selecionando as seguintes opgoes: Statistics Binary outcomes Logistic regression (reporting 
odds ratios). 
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RESULTADOS 7.12 Resultados da regressao logistica - odds ratio. 


. logistic union wage tenure 

collgrad 

south c_ 

city 



Logistic regression 



Number 

of obs = 

1868 






LR chi2(5) 

113.78 






Prob > 

chi2 

0.0000 

Log likelihood 

= -985.79271 



Pseudo 

R2 

0.0546 

union 


Odds Ratio 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

wage 


1.038679 

.0145576 

2.71 

0.007 

1.010535 

1.067607 

tenure 


1.042708 

.0100716 

4.33 

0.000 

1.023153 

1.062636 

collgrad 


1.356153 

.1780858 

2.32 

0.020 

1.048411 

1.754227 

south 


.4861486 

.058032 

-6.04 

0.000 

.3847338 

.614296 

c_city 


1.649007 

.1947605 

4.23 

0.000 

1.308245 

2.078528 

_cons 

1 

.1863681 

.0260169 

-12.03 

0.000 

.1417569 

.2450186 



V_/ 



Figura 7.11 Janeia de configuraqoes do comando logistic. 

7.3. REGRESSAO LOGISTICA MULTINOMIAL 

A regressao logistica multinomial compreende uma extensao do modelo de regressao 
logistica que per mite o uso de variaveis dependentes que assumam mais de duas categorias. 

Caso a variavel dependente seja nominal, ou seja, nao exista ordem entre suas ca¬ 
tegorias (por exemplo, candidatos em uma elei^ao), a regressao logistica multinomial e 
o modelo adequado.Todavia, caso a variavel dependente seja ordinal, isto e, existe uma 
ordem entre suas categorias (por exemplo, grande, medio e pequeno),pode ser utilizado 
o modelo multinomial, porem, e aconselhavel o uso da regressao logistica ordinal. 

Suponha que agora estejamos interessados em identificar as caracteristicas das traba- 
lhadoras, considerando o setor em que atuam. Para conhecer melhor a variavel industry 
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iremos inspecionar as suas categorias, utilizando o comando tabulate (ou simplesmente 
tab) . Precisamos informar no Stata® o seguinte: 

tab industry 

O comando tab gera uma tabela de frequencias para uma variavel, confer me ja vimos 
no Capitulo 2. A primeira categoria, Ag/Forestry/Fisheries (agricultura, extrativismo florestal 
e pesca), e aquela que foi codificada na entrada dos dados com o valor 1, e a ultima categoria, 
Public Administration (administragao publica),foi codificada com o valor 12 (Resultados 7.13). 


< > 

RESULTADOS 7.13 Tabela de frequencias das categorias da variavel industry. 


. tab industry 

industry 

1 

Freq. 

Percent 

Cum. 


Ag/Forestry/Fisheries 

1 

17 

0.76 

0.76 


Mining 

1 

4 

0.18 

0.94 


Construction 

1 

29 

1.30 

2.24 


Manu f ac turing 

1 

367 

16.44 

18.68 


Transport/Comm/Utility 

1 

90 

4.03 

22.72 


Wholesale/Retail Trade 

1 

333 

14.92 

37.63 


Finance/Ins/Real Estate 

1 

192 

8.60 

46.24 


Business/Repair Svc 

1 

86 

3.85 

50.09 


Personal Services 

1 

97 

4.35 

54.44 


Entertainment/Rec Svc 

1 

17 

0.76 

55.20 


Professional Services 

1 

824 

36.92 

92.11 


Public Administration 

1 

176 

7.89 

100.00 


Total 


2,232 

100.00 




V_/ 


Para realizar a regressao logistica multinomial no Stata®, faremos uso do comando 
mlogit (Sintaxe 7.8). 


SINTAXE7.8 Comando mlogit. 

Imlogit depvar indepvars [, level(#)] [, b(#)] [, rrr] 

Em que: 

• depvar: Nome da variavel dependente. 

• indepvars: Lista de variaveis explicativas. 

• level: Estabelece o nivel de confianga a ser utilizado. 0 padrao e 95%. 

• b: Permite identificar qual categoria sera considerada como grupo de referenda. Se nada 
for informado, o Stata® considerara a categoria da primeira observagao. 

• rrr: Exibe os relative risk ratios em vez dos coeficientes da regressao. 


Na janela de comandos do Stata®, iremos informar o seguinte comando: 

mlogit industry wage grade married, b(2) 

O resultado do teste da razao da verossimilhanga implicou um p-valor inferior a 0,0001. 
Logo,podemos concluir que ha pelo menos uma variavel estatisticamente significativa para 
explicar o comportamento da variavel dependente, com nivel de significancia padrao de 
5%. O Pseudo R 2 de 6,60% indica baixo poder explicativo do modelo (Resultados 7.14). 










RESULTADOS 7.14 Resultados da regressao logfstica multinomial. 


. mlogit industry wage grade married. 

b (2) 





Iteration Os log likelihood = -4222 

7456 





Iteration 1: log likelihood = -4026 

1065 





Iteration 2: log likelihood = -3958 

1849 





Iteration 3s log likelihood = -3946.881 





Iteration 4s log likelihood = -3943 

9995 





Iteration 5s log likelihood = -3943 

9513 





Iteration 6s log likelihood = -3943 

9512 





Multinomial logistic regression 


Number 

of obs 

= 2230 






LR chi2(33) 

= 557.59 






Prob > 

chi2 

= 0.0000 


Log likelihood = -3943.9512 



Pseudo 

R2 

= 0.0660 


industry 

1 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

Ag Forestry Fisheries 








wage 


- .1995788 

.0996982 

-2.00 

0.045 

-.3949838 

-.0041739 

grade 


.0693425 

.2375549 

0.29 

0.770 

-.3962565 

.5349415 

married 


2.515206 

1.323728 

1.90 

0.057 

-.0792526 

5.109665 

_cons 


.8258862 

2.837918 

0.29 

0.771 

-4.736331 

6.388103 

Mining 


(base outcome) 





Construction 








wage 


-.0886124 

.0512723 

-1.73 

0.084 

-.1891042 

.0118795 

grade 


.1226699 

.2246888 

0.55 

0.585 

-.317712 

.5630518 

married 


1.342435 

1.219853 

1.10 

0.271 

-1.048432 

3.733303 

cons 


.8608366 

2.692261 

0.32 

0.749 

-4.415897 

6.13757 

Manufacturing 








wage 


-.0894977 

.0396788 

-2.26 

0.024 

-.1672667 

-.0117288 

grade 


.1109869 

.2089112 

0.53 

0.595 

-.2984715 

.5204453 

married 


1.223724 

1.164789 

1.05 

0.293 

-1.05922 

3.506669 

_cons 


3.612571 

2.499414 

1.45 

0.148 

-1.28619 

8.511332 

Transport Comm Utility 








wage 


-.0351797 

.0398423 

-0.88 

0.377 

-.1132693 

.0429098 

grade 


.2201114 

.2126629 

1.04 

0.301 

-.1967002 

.6369229 

married 


1.147361 

1.178119 

0.97 

0.330 

-1.16171 

3.456431 

cons 


.3881542 

2.556797 

0.15 

0.879 

-4.623077 

5.399385 

Wholesale_Retail_Trade 








wage 


-.1795196 

.04327 

-4.15 

0.000 

-.2643272 

-.0947121 

grade 


.1967414 

.2096558 

0.94 

0.348 

-.2141763 

.6076591 

married 


1.467627 

1.166113 

1.26 

0.208 

-.8179133 

3.753167 

cons 


2.93097 

2.506819 

1.17 

0.242 

-1.982306 

7.844245 

Finance Ins Real Estate 








wage 


-.0528778 

.0395765 

-1.34 

0.182 

-.1304463 

.0246907 

grade 


.2460558 

.2103872 

1.17 

0.242 

-.1662955 

.658407 

married 


1.878811 

1.170074 

1.61 

0.108 

-.4144923 

4.172115 

cons 


.5488874 

2.524294 

0.22 

0.828 

-4.398638 

5.496413 

Business Repair Svc 








wage 


-.1000612 

.0442188 

-2.26 

0.024 

-.1867284 

- .0133939 

grade 


.2100695 

.2140772 

0.98 

0.326 

- .2095142 

.6296532 

married 


1.724749 

1.182834 

1.46 

0.145 

-.5935632 

4.043062 

_cons 


.7119775 

2.567922 

0.28 

0.782 

-4.321058 

5.745012 

Personal Services 








wage 


- .4462461 

.0703961 

-6.34 

0.000 

-.5842199 

-.3082723 

grade 


.108782 

.2128997 

0.51 

0.609 

-.3084937 

.5260577 

married 


.9631042 

1.179081 

0.82 

0.414 

-1.347853 

3.274061 

cons 


4.379042 

2.541472 

1.72 

0.085 

- .6021515 

9.360235 

Entertainment_Rec_Svc 








wage 


-.1655435 

.0798219 

-2.07 

0.038 

-.3219916 

-.0090954 

grade 


.3259548 

.2380307 

1.37 

0.171 

-.1405767 

.7924863 

married 


.8713547 

1.258528 

0.69 

0.489 

-1.595314 

3.338024 

_cons 


-1.433333 

2.868951 

-0.50 

0.617 

-7.056374 

4.189708 

Professional Services 








wage 


-.1422114 

.0400968 

-3.55 

0.000 

-.2207997 

- .0636231 

grade 


.5457693 

.2090786 

2.61 

0.009 

.1359828 

.9555557 

married 


1.990576 

1.163827 

1.71 

0.087 

-.2904831 

4.271636 

cons 


-1.372782 

2.504272 

-0.55 

0.584 

-6.281066 

3.535501 

Public_Administration 








wage 


-.0779153 

.0402937 

-1.93 

0.053 

-.1568896 

.001059 

grade 


.3697276 

.2107308 

1.75 

0.079 

-.0432972 

.7827525 

married 


1.441273 

1.170401 

1.23 

0.218 

-.8526703 

3.735217 

cons 


-.6544494 

2.530015 

-0.26 

0.796 

-5.613187 

4.304288 
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Na regressao multinomial, as categorias sao comparadas com a categoria de referenda 
que, no nosso exemplo, se refere a Mining (mineragao). Essa categoria foi escolhida por 
ser aquela com a menor quantidade de observagoes, porem, o criterio para escolha da 
categoria de referenda depende fundamentalmente daquilo que o pesquisador deseja. 
Em relagao aos testes Z, verificamos, por exemplo: 

1. Entre as trabalhadoras da categoria Professional_Services (servicos profissionais), as variaveis 
wage e grade sao estatisticamente significantes a um nivel de 5% de significance. O mesmo 
ocorre com a categoria Public Administration, porem a um nivel de significance de 10%. 

2. A variavel married somente foi significativa, a um nivel de 10% de significance, para 
a categoria Ag/Forestry/Fisheries. 

No modelo multinomial as razoes de chances sao dadas pelas relative risk ratios. Na 
janela de comandos, digitaremos: 

mlogit industry wage grade married, b(2) rrr 

Conforme vimos na regressao logistica binaria, essas chances nos permitem en- 
tender o efeito de cada variavel, so que agora para cada uma das categorias analisadas 
(Resultados 7.15). Por exemplo, considerando a variavel wage e um nivel de significance 
de 5%, veremos que o efeito do aumento em uma unidade dessa variavel, preservadas as 
demais condigoes, modificara a chance de uma trabalhadora pertencer respectivamente 
a cada uma das demais categorias, em relagao a categoria Mining , da seguinte forma: 

1. Setor Ag/Florestry/Fisheries: redugao de 18,09%. 

2. Setor Manufacturing: redugao de 8,56%. 

3. Setor Wholesale /Retail Trade: redugao de 16,43%. 

4. Setor Business/Repair Svc: redugao de 9,52%. 

5. Setor Personal Services: redugao de 36,00%. 

6 . Setor Entretainment/Rec Svc: redugao de 15,26%. 

7. Setor Professional Services: redugao de 13,26%. 

Caso quisessemos realizar uma regressao logistica multinomial utilizando os comandos 
da barra de menus, bastaria que clicassemos nas seguintes opgoes: Statistics ~} Categorical 
outcomes ~} Multinomial logistic regression. Aparecera uma janela, conforme a Figura 7.12. 

Imagine que estejamos interessados em saber se dois grupos possuem coeficientes estatis¬ 
ticamente iguais. Neste caso,podemos utilizar o comando test, apresentado na Sintaxe 7.9. 
Assim, na janela de comandos do Stata®, digitaremos o seguinte: 
test [Entertainment_Rec_Svc]wage = [Professional_Services]wage 
test [Public_Administration] grade = 1 

No primeiro teste avaliamos se o valor do coeficiente estimado para o grupo 
Entrertainment/Rec Svc e igual ao coeficiente estimado para o grupo Professional Services , 
em relagao a variavel wage. Verificamos que, com um p-valor superior a 0,73, os coefi¬ 
cientes da variavel wage sao iguais, estatisticamente, nesses dois grupos (Resultados 7.16). 

No segundo teste, o objetivo e verificar se o coeficiente da variavel grade, estimado 
para o grupo Public Administration, e igual a 1. Com uma probabilidade inferior a 0,01, 
rejeitamos a hipotese nula testada (Resultados 7.16). 


RESULTADOS 7.15 Resultados da regressao logistica multinomial - relative 
risk ratios. 


. mlogit industry wage grade married. 

b(2) rrr 





Iteration Os log likelihood = -4222 

7456 





Iteration Is log likelihood = -4026 

1065 





Iteration 2: log likelihood = -3958 

1849 





Iteration 3: log likelihood = -3946.881 





Iteration 4s log likelihood = -3943 

9995 





Iteration 5$ log likelihood = -3943 

9513 





Iteration 6: log likelihood = -3943 

9512 





Multinomial logistic regression 


Number 

of obs = 

2230 






LR chi2(33) 

557.59 






Prob > 

chi2 

0.0000 


Log likelihood * -3943.9512 



Pseudo 

R2 

0.0660 


industry 

1 

RRR 

Std. Err. 

z 

p>M 

[95% Conf. 

Interval] 

Ag Forestry Fisheries 








wage 


.8190757 

.0816604 

-2.00 

0.045 

.673691 

.9958348 

grade 


1.071803 

.2546121 

0.29 

0.770 

.6728341 

1.707348 

married 


12.36916 

16.37339 

1.90 

0.057 

.9238065 

165.6148 

cons 


2.283904 

6.481532 

0.29 

0.771 

.0087708 

594.7274 

Mining 


(base outcome) 





Construction 








wage 


.9152003 

.0469244 

-1.73 

0.084 

.8277003 

1.01195 

grade 


1.130511 

.2540132 

0.55 

0.585 

.7278124 

1.756023 

married 


3.828355 

4.67003 

1.10 

0.271 

.3504868 

41.81699 

_cons 


2.365138 

6.367569 

0.32 

0.749 

.0120837 

462.9275 

Manufacturing 








wage 


.9143903 

.0362819 

-2.26 

0.024 

.8459739 

.9883397 

grade 


1.11738 

.2334332 

0.53 

0.595 

.7419514 

1.682777 

married 


3.399826 

3.96008 

1.05 

0.293 

.346726 

33.33703 

cons 


37.0612 

92.63128 

1.45 

0.148 

.2763214 

4970.779 

Transport_Comm_Utility 








wage 


.9654319 

.0384651 

-0.88 

0.377 

.8929102 

1.043844 

grade 


1.246216 

.2650238 

1.04 

0.301 

.8214369 

1.890654 

married 


3.149868 

3.710918 

0.97 

0.330 

.3129507 

31.70362 

_cons 


1.474257 

3.769377 

0.15 

0.879 

.0098225 

221.2703 

WholesaleRetailTrade 








wage 


.8356716 

.0361595 

-4.15 

0.000 

.7677223 

.9096348 

grade 


1.217429 

.255241 

0.94 

0.348 

.807206 

1.836128 

married 


4.338927 

5.059681 

1.26 

0.208 

.4413517 

42.65598 

_cons 


18.7458 

46.99232 

1.17 

0.242 

.1377512 

2551.011 

Finance Ins Real Estate 








wage 


.9484959 

.0375381 

-1.34 

0.182 

.8777037 

1.024998 

grade 


1.278971 

.2690791 

1.17 

0.242 

.846796 

1.931713 

married 


6.54572 

7.65898 

1.61 

0.108 

.6606756 

64.85249 

cons 


1.731326 

4.370376 

0.22 

0.828 

.0122941 

243.8159 

Business Repair_Svc 








wage 


.9047821 

.0400084 

-2.26 

0.024 

.829669 

.9866954 

grade 


1.233764 

.2641208 

0.98 

0.326 

.8109782 

1.87696 

married 


5.611115 

6.637019 

1.46 

0.145 

.5523556 

57.00062 

cons 


2.038017 

5.23347 

0.28 

0.782 

.0132858 

312.6275 

Personal Services 








wage 


.6400262 

.0450554 

-6.34 

0.000 

.5575406 

.7347153 

grade 


1.114919 

.237366 

0.51 

0.609 

.7345526 

1.692248 

married 


2.619816 

3.088977 

0.82 

0.414 

.2597975 

26.41841 

_cons 


79.76159 

202.7118 

1.72 

0.085 

.5476322 

11617.12 

Entertainment_Rec_Svc 








wage 


.847433 

.0676437 

-2.07 

0.038 

.7247043 

.9909458 

grade 


1.385353 

.3297564 

1.37 

0.171 

.868857 

2.208882 

married 


2.390147 

3.008066 

0.69 

0.489 

.2028447 

28.16342 

_cons 


.2385127 

.6842812 

-0.50 

0.617 

.0008619 

66.00352 

Professional_Services 








wage 


.8674379 

.0347815 

-3.55 

0.000 

.8018773 

.9383586 

grade 


1.725936 

.3608561 

2.61 

0.009 

1.145662 

2.600115 

married 


7.319752 

8.518927 

1.71 

0.087 

.7479022 

71.63874 

cons 


.2534009 

.6345849 

-0.55 

0.584 

.0018714 

34.3122 

Public_Administration 








wage 


.9250428 

.0372734 

-1.93 

0.053 

.8547984 

1.00106 

grade 


1.44734 

.3049992 

1.75 

0.079 

.9576267 

2.187485 

married 


4.226073 

4.9462 

1.23 

0.218 

.4262751 

41.89711 

_cons 

1 

.5197281 

1.31492 

-0.26 

0.796 

.0036494 

74.01653 
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Figura 7.12 Janelas de configuragdes do comando mlogit. 


SINTAXE 7.9 Comando test, 

test exp 

Em que: 

• exp: Expressao que sera considerada como hipotese nula do teste. 
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RESULTADOS 7.16 Resultados de testes com os coeficientes. 


. test 

[EntertainmentRecSvc]wage = 

[ProfessionalServices]wage 1 

( 1) 

[Entertainment Rec Svc]wage - 

[Professional Services]wage = 0 


chi2( 1) = 0.11 

Prob > chi2 = 0.7393 


. test 

[Public Administration]grade = 

1 

( 1) 

[PublicAdministration]grade = 

1 


chi2( 1) = 8.95 

Prob > chi2 = 0.0028 



_ / 


Para realizarmos estes testes via barra de menus, basta clicar nas seguintes opcoes: Statistics 
Postestimation Tests Test linear hypotheses .Aparecera uma janela, conforme a Figura 7.13. 




Figura 7.13 Janetas de configuraqoes do comando test. 


Na regressao logistica podemos, ainda, observar, mediante um grafico, o efeito de 
uma variavel em rela^ao as categoriais. Suponha que desejassemos conhecer qual o efeito 
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da variavel married nas seguintes categorias: Personal Services (industry — 9), Construction 
(;industry = 3) e Public Administration (industry =12). 


SINTAXE7.10 Comando predict. 

predict newvar [, outcome(groupname)] [, p] 

Em que: 

• newvar: Nome da nova variavel que armazenara os valores previstos. 

• outcome: Grupo para o qual se deseja criar os valores previstos. 

• p: Opgao a ser utilizada para a gera^ao das probabilidades de acordo com o modelo da 
regressao. 


Inicialmente, precisamos estimar as probabilidades para todas as categorias, utilizando 
o comando predict (Sintaxe 7.10). 

Precisaremos informar os seguintes comandos no Stata®: 

predict pOl, outcome(Personal_Services) p 
predict p02, outcome(Construction) p 
predict p03, outcome(Public_Administration) p 


RESULTADOS 7.17 Prevendo probabilidades para algumas categorias. 




. predict pOl, outcome(PersonalServices) p 
(2 missing values generated) 

. predict p02, outcome(Construction) p 
(2 missing values generated) 

. predict p03, outcome(Public_Administration) p 
(2 missing values generated) 




J 


Apos gerar as probabilidades previstas de acordo com o modelo logistico multinomial 
(Resultados 7.17), vamos agora plotar os graficos confrontando essas probabilidades com 
a variavel wage. Na janela de comandos, informaremos: 

twoway (line pOl married if industry == 9, sort) (line p02 married if 
industry == 3, sort) (line p03 married if industry == 12, sort) 
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RESULTADOS 7.18 Gerando o grafico para visualizar o efeito da variavel 
married. 


|| . twoway (line pOl married if industry == 9, sort) (line p02 married if industry == 3, sort) 




J 


No grafico da Figura 7.14 podemos perceber que, dentre as tres categorias ana- 
lisadas neste momento, o fato de a empregada ser casada tem influencia apenas na 
probabilidade de ela pertencer a categoria Personal Services , com redu^ao na chance 
e na probabilidade, em rela^ao a categoria de referenda ( Mining ) caso ela seja casada. 
Nas demais categorias analisadas, verificamos que a variavel married nao tem efeito 
significativo. Isso ja era de se esperar, uma vez que os p-valores obtidos para esta 
variavel nos Resultados 7.15 foram maiores do que 5% para as categorias Construction 
e Public Administration. 



married 

-Pr(industry==Personal_Services) Pr(industry=Construction) 

-p r (j n d US try==P U bli C _Admi n i S t ra ti 0n ) 

Figura 7.14 Grafico para visualizar o efeito da variavel married. 


Para gerar as probabilidades previstas, apos uma regressao logistica multinomial, 
via barra de menus, podemos acessar as seguintes op^oes: Statistics Postestimation 
Predictions, residuals, etc. Ira aparecer uma janela, segundo a Figura 7.15. 














Regressao Logistica 


193 



Figura 7.15 Janela de configuragdes do comando predict. 


7.4. EXERCICIO 

1. Para se avaliar quais as caracteristicas que poderiam interferir no habito da populagao 
em realizar exames de rotina com frequencia, um pesquisador realizou uma serie 
de entrevistas. Dados relativos a educagao, idade, doengas passadas e frequencia de 
realizagao de exames de rotina foram coletados. 

O arquivo medico.dta apresenta quatro colunas (variaveis) com codigos numericos: 
Idade: 

1. idade < 25 

2. 25 < idade < 29 

3. 30 < idade < 39 

4. 40 < idade < 49 

Educagao superior (0 = Nao; 1 = Sim) 

Doenga grave (0 = Nao apresentou doenga grave no passado; 1 = Ja apresentou alguma 
doenga grave no passado) 

Realiza exames de rotina com frequencia (0 = Nao; 1 = Sim) 

Por meio da tecnica de regressao logistica, pede-se: 

a. Quais variaveis sao significativas para se elaborar uma boa previsao do fato de um 
individuo realizar exames de rotina com frequencia? 

b. Elabore novamente, sem as variaveis que apresentaram problemas de significance 
(teste Z). 

c. Interprete os outputs da tecnica. 

d. Elabore uma curva ROC e interprete-a. 

e. Calcule a probabilidade de uma pessoa com as seguintes caracteristicas realizar 
frequentemente exames de rotina: 

Idade < 25 

Educagao superior: Nao 
Doenga grave no passado: Nao 

f. Elabore a analise de sensibilidade no Stata® e discuta os resultados. 















Analise de Sobrevivencia: Procedimento 
Kaplan-Meier e Regressao de Cox 


A analise de sobrevivencia compreende uma variedade de metodos estatisticos desti- 
nados a analisar a dura^ao de um evento de interesse. De acordo com Favero et al. (2009), 
a analise de sobrevivencia tem como principal vantagem o suporte a dados censurados, 
alem de poder ser aplicada tanto nas ciencias biomedicas, quanto nas ciencias sociais. 

Neste capitulo, apresentaremos os principals comandos relacionados com dois es- 
timadores muito utilizados nas analises de sobrevivencia: (i) Estimador de Kaplan-Meier 
e (ii) Regressao de Cox ou Modelo de Riscos Proporcionais. 

Utilizaremos em nossos exemplos a base de dados AIDS.dta. A referida base de 
dados possui 100 observa^oes sobre tratamentos ministrados a pacientes com AIDS, sendo 
composto pelas variaveis contidas no Quadro 8.1. 

O primeiro passo que daremos sera acionar o software Stata® e, apos a inicializa^ao 
do mesmo, iremos solicitar a abertura da base de dados AIDS.dta. 

8.1. DADOS CENSURADOS 

Os dados utilizados em uma analise de sobrevivencia apresentam duas caracteristicas 
especiais: 

1. A variavel relacionada com o tempo e nao negativa e, geralmente, a sua distribui^ao 
e positivamente assimetrica. 

2. Para algumas observa^oes ocorre a presen^a de dados censurados. 

Dados censurados ocorrem quando, em algumas observa^oes, os resultados nao podem 
ser observados para se determinar o tempo de sobrevivencia, ou porque o evento de 
interesse simplesmente nao ocorre durante o tempo de observa^ao ou porque ha uma 
descontinuidade do experimento em questao (FAVERO et al ., 2009). 

Quadro 8.1 Variaveis que compoem a base de dados AIDS.dta 

Variavel Descrigao Tipo 

tempo de estudo Tempo ate a morte ou fim da exposigao Quantitativa 

evento 1 se o paciente faleceu e 0, caso contrario Qualitativa 

remedio Tipo de remedio Qualitativa 

idade Idade do paciente no inicio da exposi^ao Quantitativa 


1 Banco de dados elaborado tendo por base o banco de dados cancer.dta, que esta disponivel ao se instalar 
o software Stata®. 
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Apresentaremos dois exemplos para explicar melhor o conceito de dados censurados. 
Conforme foi dito anteriormente, a analise de sobrevivencia e um metodo muito 
utilizado nas ciencias biomedicas. Imaginemos a seguinte situa^ao: esta sendo realizada 
uma pesquisa sobre o efeito de um medicamento e o evento analisado e a morte do 
paciente. Fixado o periodo maximo em que os pacientes serao observados, por exem- 
plo, 180 dias, durante esse periodo havera pacientes que permanecerao vivos, alguns 
morrerao e outros podem abandonar o tratamento. Assim, somente conheceremos o 
tempo de sobrevivencia dos pacientes que continuarem o tratamento e que vieram a 
falecer durante o periodo. 

Nas ciencias sociais, podemos citar o exemplo relacionado com o risco de inadim- 
plencia de credores, pessoas fisicas. Durante certo periodo, supondo um ano, os dados 
de pessoas que obtiveram emprestimos serao monitorados. O evento de interesse e a 
inadimplencia. Assim como ocorreu no exemplo anterior, apenas conheceremos o tempo de 
sobrevivencia dos credores que continuarem a ser monitorados e atinjam a condi^ao 
de inadimplente. Se durante o periodo houver credores que nao se tornem inadimplentes 
ou que deixem de ser monitorados (por exemplo, usem o beneficio da portabilidade e 
mudem de institui^ao financeira), trabalharemos com dados censurados. 

Quando nao se considera a presen^a de dados censurados, a grande maioria das es¬ 
timates realizadas a partir destes dados e viesada.Vamos observar o comportamento 
da base de dados que estamos utilizando. Na janela de comandos do Stata®, digite o 
seguinte comando: 

sum tempo_estudo evento remedio idade 

< > 

RESULTADOS 8.1 Visualizando as estatisticas descritivas das variaveis. 


. sum tempoestudo evento remedio idade 


Variable 

Obs 

Mean 

Std. Dev. 

Min 

Max 

tempo estudo 

100 

16.29 

10.73397 

1 

39 

evento 

100 

.63 

.4852366 

0 

1 

remedio 

100 

1.92 

.8490042 

1 

3 

idade 

100 

55.86 

5.633629 

47 

67 


_ / 


A variavel associada ao tempo, tempo_estudo , possui valores nrinimo e maximo 
de 1 e 39, respectivamente (Resultados 8.1). Esta variavel e, portanto, nao negativa. 
O evento de interesse esta codificado na variavel evento utilizando-se os valores 0 
e 1. Logo, os dados sao censurados. Vamos inspecionar melhor essas duas variaveis. 
Utilizaremos os seguintes comandos: 
hist tempo_estudo 
tab evento 
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--- ^ 

RESULTADOS 8.2 Gerando o histograma da variavel tempo_estudo 

e tabulando a variavel evento. 


. hist tempoestudo 
(bin=10, start=l, width=3.8) 

. tab evento 

1 se o | 
paciente j 


faleceu 


Freq. 

Percent 

Cum. 

0 

1 


37 

63 

37.00 

63.00 

37.00 

100.00 

■ 

Total | 

100 

100.00 



_ 7 


Em relagao a variavel tempo_estudo, verificamos que a mesma e a assimetrica positiva- 
mente (Figura 8.1), conforme haviamos discutido. Ademais, de acordo com o resultado 
da tabulagao da variavel evento , verificamos que as observagoes nas quais nao ocorreu o 
evento de interesse, durante o periodo analisado, compreendem 37% da nossa amostra 
(Resultados 8.2). Logo, estamos trabalhando com dados censurados. 



Anos ate a morte ou fim da exposigao 

Figura 8.1 Histograma da variavel tempo_estudo. 
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8.2. MODELOS 

A analise de sobrevivencia e um metodo que permite se examinar a dura^ao de 
tempo de determinado evento. Se, por exemplo, este evento critico for a morte, ha 
um grande interesse pelo tempo de sobrevivencia para diferentes populates por 
parte de empresas de seguros de vida. Por exemplo, podemos defmir como tempo de 
sobrevivencia: 

• Tempo para fmaliza^ao de determinado processo (emprestimo, compra de imovel 
etc.) em diferentes locais ou por meio de diferentes procedimentos. 

• Previsao de insolvencia. 

• Tempo em que diferentes grupos de consumidores manterao contas em determinado 
banco. 

O tempo de sobrevivencia pode ser considerado uma variavel aleatoria com dis- 
tribui^ao de probabilidade F(t) e fun^ao de densidade de probabilidade/^J. O interesse no 
uso de analise de sobrevivencia e identificar a probabilidade de sobrevivencia ao tempo 
t. Mais que isso, mostra-se de extremo interesse detectar a fun^ao de sobrevivencia ou a 
curva de sobrevivencia S(t). A fun^ao sobrevivencia, indicada por S(t), pode ser defmida 
como a probabilidade de uma observa^ao nao falhar ate determinado tempo t, podendo 
ser escrita da seguinte maneira: 

S(t) = P(T > t) = 1 - F (t) [Equa^ao 8.1] 


s(0 = 


N° de observagdes que nao falharam ate momento t 
N° de observagdes no estudo 


[Equa^ao 8.2] 


Uma fun^ao adicional que tambem e de interesse na analise de sobrevivencia e a 
fun^ao de falha ou de risco (hazardfunction), denominada por h(t). Esta fun^ao representa 
a taxa instantanea de falha, isto e, a probabilidade de que haja a experiencia de determi¬ 
nado evento de interesse em determinado ponto, dado que o evento ainda nao ocorreu. 
Pode-se representar a fun^ao de falha ou de risco (hazardfunction) por: 


h(t) = 


M 

S(t) 


[Equa^ao 8.3] 


m= 


N° de observagoes que falharam entre tet + 1 
N° de observagoes que nao falharam ate momento t 


[Equa^ao 8.4] 


Como explicitado pela Equa^ao 8.3, a fun^ao de falha ou de risco apresenta o 
quociente entre a probabilidade instantanea de falha no periodo t e a probabilidade 
de sobreviver ate o periodo t. Logo, a fun^ao de falha nada mais e do que uma taxa 
de incidencia. 
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E, entao: 


dlog(S(t)) 

- - -= h(t) 

dt 


[Equagao 8.5] 


S(t) = exp (~H(t)), 


[Equagao 8.6] 


em que H(t) e a fiingao de risco integrada, tambem conhecida como a fiingao de risco 
acumulada. 

De acordo com Jenkins (2005), os modelos utilizados em uma analise de sobrevivencia 
podem ser classificados em: 

1. Modelos de riscos proporcionais (proportional hazards models). 

2. Modelos de tempo de falha acelerado (acceleratedfailure time models). 

Nos modelos de riscos proporcionais, assume-se o pressuposto de que a fungao de 
risco depende exclusivamente do tempo, e nao das caracteristicas das observagoes, ou 
seja, o padrao de dependencia da duragao e comum a todas as observagoes. 

A interpretagao dos coeficientes estimados nesses modelos relaciona a alteragao de 
uma unidade na variavel regressora a uma alteragao proporcional na taxa de risco, e nao 
no tempo de sobrevivencia (JENKINS, 2005). 

Nos modelos de tempo de falha acelerado, considera-se que ha uma relagao linear 
entre o logaritmo da variavel temporal e as caracteristicas das observagoes. Em razao 
disso, o tempo de sobrevivencia pode ser curto (tempo de falha acelerado) ou longo 
(tempo de falha desacelerado). 

A interpretagao dos coeficientes estimados nos modelos de tempo de falha acelerado 
relaciona as alteragoes proporcionais em tempo de sobrevivencia com a mudanga em uma 
unidade de uma variavel regressora, mantidas todas as demais fixadas (JENKINS, 2005). 


8.3. ESTIMADORES 


Nesta segao iremos analisar dois estimadores empregados na analise de sobrevivencia: 
(i) Estimador de Kaplan-Meier e (ii) Regressao de Cox ou Modelo de Riscos Propor¬ 
cionais. 

O estimador de Kaplan-Meier e um estimador nao parametrico da fungao de so¬ 
brevivencia. Se todas as falhas, ou periodos, em que o evento ocorre na amostra, sao 
organizados e chamados de t tal como t (1) < t (2) ... < t^, o estimador e dado por: 


Ao=n 


C 

i —>- 




V 


n iJ 


[Equagao 8.7] 


em que d consiste no numero de individuos que sofreu o evento no tempo £ e n 
e o numero de individuos que ainda nao sofreu o evento naquela ocasiao e, portanto, 
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ainda estao expostos ao “risco” de sofrer este evento (incluidos os dados censurados em 
t J). O produto e a apresenta^ao de todas as falhas em um periodo inferior ou igual a t. 

Quando a analise e realizada para apenas um grupo, examina-se a curva de sobre¬ 
vivencia acumulada, que apresenta as probabilidades estimadas de sobrevivencia apos o 
final de cada periodo. Quando muitos grupos sao envolvidos, a curva de sobrevivencia 
acumulada e elaborada para cada grupo, permitindo a compara^ao entre eles (teste de 
significance). 

Iniciando o nosso exemplo, imagine que o nosso objetivo e o efeito de tres tratamen- 
tos, e o evento analisado e a morte do paciente. No Stata®, primeiro precisaremos informar 
que a base de dados utilizada possui o formato proprio de uma analise de sobrevivencia. 
Utilizaremos o comando stset (Sintaxe 8.1 e Resultados 8.3). 

SINTAXE8.1 Comando stset. 

stset timevar, failure(eventvar) 

Em que: 

• timevar: Nome da variavel relacionada com o tempo. 

• eventvar: Nome da variavel relacionada com o evento analisado. 

Assim, digitaremos na janela de comandos do Stata® o seguinte comando: 

stset tempo_estudo, failure(evento) 


< > 
RESULTADOS 8.3 Definindo a amostra no formato proprio para a analise 
de sobrevivencia. 


. stset tempo_estudo / failure(evento) 

failure event: evento != 0 & evento < . 
obs. time interval: (0, tempoestudo] 
exit on or before: failure 


100 total obs. 
0 exclusions 


100 obs. remaining, representing 
63 failures in single record/single failure data 
1629 total analysis time at risk, at risk from t = 
earliest observed entry t = 
last observed exit t = 


_ / 


0 

0 

39 


O estimador de Kaplan-Meier pode ser acessado no Stata® por meio de dois comandos: 
sts e ltable.Enquanto no comando sts (Sintaxe 8.2) a variavel temporal e tratada como 
continua, o comando ltable e indicado quando os dados da analise tiverem sido agrupados 
em intervalos temporais de iguais tamanhos. 
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SINTAXE 8.2 Comandosts. 

sts [list] [graph, by(groupvar)] [gen varname = exp] [, level(#)] 

Em que: 

• list: Exibe as probabilidades estimadas em fungao do tempo de sobrevivencia. 

• graph: Exibe o grafico da fungao de sobrevivencia. Quando se usa a opgao by, sao exibidos 
graficos considerando os grupos da variavel groupvor. 

• gen: Gera uma serie de dados e armazena na variavel varname , utilizando uma das seguintes 
expressoes: s - fungao de sobrevivencia, na - fungao de risco acumulada, h - contribuigao 
do risco. 

• level: Estabelece o nivel de confianga a ser utilizado. O padrao e 95%. 


Vamos visualizar as probabilidades estimadas em fungao do tempo de sobrevivencia, 
considerando os dados em analise. Devemos digitar o seguinte: 

sts list 


< > 
RESULTADOS 8.4 Probabilidades estimadas em fun^ao do tempo 
de sobrevivencia. 


. sts list 


failure _ds evento 
analysis time _t: tempoestudo 


Time 

Beg. 

Total 

Fail 

Net 

Lost 

Survivor 

Function 

Std. 

Error 

[95% Conf 

. Int.] 

1 

100 

4 

0 

0.9600 

0.0196 

0.8969 

0.9848 

2 

96 

2 

0 

0.9400 

0.0237 

0.8713 

0.9726 

3 

94 

2 

0 

0.9200 

0.0271 

0.8464 

0.9592 

4 

92 

4 

0 

0.8800 

0.0325 

0.7984 

0.9300 

5 

88 

4 

0 

0.8400 

0.0367 

0.7522 

0.8988 

6 

84 

4 

2 

0.8000 

0.0400 

0.7074 

0.8660 

7 

78 

2 

0 

0.7795 

0.0415 

0.6847 

0.8489 

8 

76 

6 

2 

0.7179 

0.0452 

0.6182 

0.7959 

9 

68 

0 

2 

0.7179 

0.0452 

0.6182 

0.7959 

10 

66 

2 

2 

0.6962 

0.0464 

0.5949 

0.7769 

11 

62 

4 

2 

0.6513 

0.0485 

0.5473 

0.7371 

12 

56 

4 

0 

0.6048 

0.0503 

0.4988 

0.6951 

13 

52 

2 

0 

0.5815 

0.0510 

0.4750 

0.6738 

15 

50 

2 

2 

0.5582 

0.0515 

0.4515 

0.6522 

16 

46 

2 

0 

0.5340 

0.0521 

0.4270 

0.6296 

17 

44 

2 

2 

0.5097 

0.0525 

0.4029 

0.6068 

19 

40 

0 

4 

0.5097 

0.0525 

0.4029 

0.6068 

20 

36 

0 

2 

0.5097 

0.0525 

0.4029 

0.6068 

22 

34 

4 

0 

0.4497 

0.0542 

0.3417 

0.5518 

23 

30 

4 

0 

0.3898 

0.0546 

0.2833 

0.4946 

24 

26 

2 

0 

0.3598 

0.0544 

0.2551 

0.4653 

25 

24 

2 

2 

0.3298 

0.0538 

0.2276 

0.4355 

28 

20 

2 

2 

0.2968 

0.0533 

0.1974 

0.4028 

32 

16 

0 

4 

0.2968 

0.0533 

0.1974 

0.4028 

33 

12 

3 

0 

0.2226 

0.0545 

0.1265 

0.3357 

34 

9 

0 

3 

0.2226 

0.0545 

0.1265 

0.3357 

35 

6 

0 

3 

0.2226 

0.0545 

0.1265 

0.3357 

39 

3 

0 

3 

0.2226 

0.0545 

0.1265 

0.3357 


V. 
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A tabela resultante e composta das seguintes colunas: (i) tempo de sobrevivencia 
(Time); (ii) numero de individuos ou observa^oes sujeitos a ocorrencia do evento no 
tempo t (Beg. Total); (iii) numero de individuos ou observa^oes que sofreram o evento 
no tempo t (Fail); (iv) numero de individuos ou observa^oes que foram censurados (Net 
Lost); (v) probabilidade estimada de sobrevivencia (Survivor Function); (vi) erro-padrao da 
estima^ao (Std. Error); (vii) intervalo de confian^a a 95% para a probabilidade estimada 
de sobrevivencia ao evento (95% Conf Inti). 

Por exemplo, quando o tempo for igual a seis anos, a probabilidade de sobrevivencia 
e de 80%, considerando um erro-padrao de 4%. Neste exato periodo ocorre a primeira 
perda de dados (dados censurados) e, a partir de entao, o denominador nao sera mais 
100 individuos, ja que dois individuos sairam da base quando t — 6 anos (Resultados 8.4). 

Por meio da barra de menus, podemos acessar o comando sts list, selecionando as 
seguintes opgoes: Statistics Survival analysis Summary statistics; tests , and tables List 
survivor and cumulative hazard functions. Surgira uma janela, conforme a Figura 8.2. 

Vamos agora gerar o grafico da fun^ao de sobrevivencia (Figura 8.3). Informaremos 
ao Stata® o seguinte comando: 

sts graph 

f -\ 

RESULTADOS 8.5 Gerando o grafico da fungao de sobrevivencia. 

. sts graph 

failure _d: evento 

analysis time _t: tempoestudo 

_ / 



Figura 8.2 Janela de configuraqoes do comando sts list. 
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Figura 8.3 Grafico da fungao de sobrevivencia. 


Tambem e possivel visualizar um grafico construido a partir da fungao de risco 
acumulada (Figura 8.4) e da contribuigao do risco. Precisaremos gerar as series de cada 
uma destas fungoes, por meio do comando sts gen. 



Figura 8.4 Grafico da fungao de risco acumulada. 
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Iremos solicitar a cria^ao das series contendo os valores calculados a partir da fun^ao 
de risco acumulada e da contribuigao do risco. Informaremos na janela de comandos o 
seguinte: 

sts gen ac = na 

graph twoway line ac tempo_estudo, sort connect(J) 


/-\ 

RESULTADOS 8.6 Gerando o grafico a partir da fun^ao de risco acumulada. 



v_/ 


Por meio da observa^ao da fun^ao de risco acumulada, podemos verificar que, de 
acordo com o conjunto de dados que estao sendo utilizados, a medida que o tempo 
avan^a, aumenta-se a probabilidade de ocorrencia do evento de interesse.Assim, verifi- 
camos qual o comportamento do nosso evento de interesse em fun^ao do tempo. Por 
exemplo, poderiamos ter um evento que funcionasse em sentido contrario, ou seja, a 
medida que o tempo avan^asse, poder-se-ia diminuir a probabilidade de ocorrencia 
do evento. 

Vamos agora analisar a contribui^ao do risco, para identificar momentos 
criticos importantes do periodo analisado. No Stata®, digitaremos os seguintes 
comandos: 

sts gen ct = h 

graph twoway line ct tempo_estudo, sort connect(J) 


f > 

RESULTADOS 8.7 Gerando o grafico da contribui^ao do risco. 

I .sts gen ct = h| 

. graph twoway line ct tempoestudo, sort connect(J)II 

_ j 

Com base no grafico apresentado por meio da Figura 8.5, podemos no tar as varia- 
£oes ocorridas no risco (contribui^ao do risco), calculado a partir da fun^ao de risco 
estimada. Por exemplo, entre o 23° e o 24° ano do periodo analisado, observamos que 
houve grandes varia^oes, que podem ser consideradas como periodos criticos para o 
experimento analisado. 
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Figura 8.6 Janela de configurates do comando sts gen. 


Para acessar este comando por meio da barra de menus, basta clicarmos nas seguin- 
tes opgoes: Statistics Survival analysis Summary statistics, tests, and tables Create 
survivor, hazard, and other variables. Surgira uma janela, conforme a Figura 8.6. 

Voltaremos agora a fungao de sobrevivencia para visualizar os efeitos de cada um dos 
tres tratamentos utilizados. Solicitaremos a geragao do grafico da fungao de sobrevivencia 
considerando o tipo de tratamento, por meio do seguinte comando: 
sts graph, by(remedio) 
































206 Metodos Quantitativos com Stata' 


ELSEVIER 


/-\ 

RESULTADOS 8.8 Gerando o grafico da fun^ao de sobrevivencia por tipo 
de tratamento. 



v_/ 


De acordo com a analise do grafico da Figura 8.7, notamos que os tres dpos de tra¬ 
tamento apresentam efeitos diferentes em rela^ao a fun^ao de sobrevivencia. Em um 
curtissimo periodo (um ano apenas), os tres tratamentos resultam na mesma probabilidade 
de sobrevivencia.Todavia, para perfodos mais longos, verifica-se que o remedio classificado 
como remedio = 1 mostra-se menos efetivo do que os demais tratamentos para fins de 
sobrevivencia. 



remedio = 1 remedio = 2 

remedio = 3 


Figura 8.7 Grafico da funqao de sobrevivencia por tipo de tratamento. 

Os medicamentos classificados por remedio = 2 e remedio = 3 apresentam resultados 
similares ate aproximadamente o oitavo ano. Entretanto, apos o decimo terceiro ano, o 
medicamento remedio = 3 mostra-se mais efetivo contra a ocorrencia do evento de 
interesse. 

O comando sts graph pode ser acionado, via barra de menus. Para tanto, precisamos 
selecionar as seguintes op^oes: Statistics ~} Survival analysis Graphs ~} Survivor and 
cumulative hazard functions. Ira aparecer uma janela, conforme a Figura 8.8. 
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Figura 8.8 Janela de configuraqoes do comando sts graph. 


Graficamente podemos notar que ha diferengas visiveis entre as fungoes de sobrevi¬ 
vencia quando considerado cada urn dos tres tratamentos utilizados.Todavia,para atestar 
se as diferengas sao estatisticamente significantes, precisaremos utilizar o comando sts 
test (Sintaxe 8.3). 


SINTAXE 8.3 Comando sts test, 

sts test varlist [if] [, w] 

Em que: 

• varlist: Lista de variaveis nas quais estao os grupos a serem analisados. 

• if: A clausula if (se) permite que o usuario estabele^a concludes que limitarao a quantidade 
de informagoes que sera exibida. 

• w: Realiza o teste de Wilcoxon, no lugar do teste log-rank, que e a opgao padrao. 


Vamos, agora, verificar se ha diferengas significativas entre as fungoes de sobrevivencia, 
considerando-se os tres tratamentos. Na janela de comandos do Stata®, digitaremos o 
seguinte comando: 

sts test remedio 

O teste long-rank verifica se ha diferengas significativas a partir dos valores obtidos na 
fungao analisada, que, nesse caso, e a fungao de sobrevivencia. As hipoteses do teste sao: 
H q : ha igualdade entre as fungoes; Hp ha pelo menos uma fungao que e diferente (caso 
haja mais de duas), ou as fungoes sao diferentes entre si (no caso de apenas duas fungoes). 

Com um p-valor inferior a 0,0001, o teste indica a rejeigao da hipotese nula 
(Resultados 8.9). Logo, existe pelo menos uma fungao que e diferente dentre as tres 
que foram analisadas. Para realizar a comparagao das fungoes duas a duas, precisaremos 
utilizar o complemento if, da seguinte forma: 
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RESULTADOS 8.9 Testando a igualdade entre as funqoes de sobrevivencia. 




. sts test remedio 

failure _d: evento 
analysis time _t: tempo_estudo 


Log-rank test for equality of survivor functions 


remedio j 


1 

2 

3 

- + 

Total 


Events 

Events 

observed 

expected 

38 

13.66 

12 

15.30 

13 

34.04 

63 

63.00 

chi2(2) = 

68.76 

Pr>chi2 = 

0.0000 


J 


sts test remedio if remedio == 1 | remedio 2,w 

sts test remedio if remedio == 1 | remedio == 3, w 

sts test remedio if remedio ——2 | remedio == 3, w 

O teste de Wilcoxon possui as mesmas hipoteses e fmalidade do teste log-rank. Em 

rela^ao aos resultados dos testes realizados (Resultados 8.10), verificamos que: 

a. A fun^ao de sobrevivencia do primeiro tratamento e estatisticamente diferente das 
fun^oes dos outros dois tratamentos, com um nivel de confian^a de 99%. 

b. As fun^oes de sobrevivencia do segundo e do terceiro tratamentos tambem sao 
consideradas diferentes estatisticamente com um nivel de significance de 5%, porem, 
com um nivel de confian^a menor do que no caso anterior (p-valor > 0,01). 

Para solicitarmos a realiza^ao dos testes anteriormente apresentados, por intermedio 

da barra de menus, precisamos clicar nas seguintes op^oes: Statistics ~} Survival analysis ~} 
Summary statistics, tests, and tables ~} Test equality of survivorfunctions. Aparecera umajanela, 
conforme a Figura 8.9. 

Na sequencia, iremos analisar o comando ltable (Sintaxe 8.4), que e indicado quando 
o tempo de sobrevivencia, mesmo que continuo, tenha sido observado de forma agrupada 
ou em valores discretos. 

Para tanto, devemos observar o comportamento da fun^ao de sobrevivencia e do 
grafico dessa fun^ao, por intermedio do seguinte comando: 

ltable tempo_estudo evento, graph 













f > 

RESULTADOS 8.10 Testando a igualdade entre as fun0es de sobrevivencia, 
duasa duas. 


. sts test remedio if 

remedio == 1 | 

remedio == 2, w 

failure d: 

evento 



analysis time _t: 

tempo_estudo 



Wilcoxon (Breslow) test 

for equality of 

survivor functions 

| Events 


Events 


Sum of 

remedio | observed 


expected 


ranks 

1 | 38 


23.10 


648 

2 j 12 


26.90 


-648 

Total | 50 


50.00 


0 

chi2(1) 

= 

18.85 



Pr>chi2 

= 

0.0000 



. sts test remedio if 

remedio == 1 | 

remedio == 3, w 

failure d: 

evento 



analysis time t: 

tempo estudo 



Wilcoxon (Breslow) test 

for equality 

of 

survivor functions 

| Events 


Events 


Sum of 

remedio | observed 


expected 


ranks 

- +- - 

1 | 38 


16.29 


1044 

3 j 13 


34.71 


-1044 

Total | 51 


51.00 


0 

chi2(1) 

_ 

40.48 



Pr>chi2 

= 

0.0000 



. sts test remedio if 

remedio == 2 | 

remedio = = 3, w 

failure _d: 

evento 



analysis time t: 

tempo estudo 



Wilcoxon (Breslow) test 

for equality 

of 

survivor functions 

Events 


Events 


Sum of 

remedio j observed 


expected 


ranks 

2 | 12 


6.09 


224 

3 j 13 


18.91 


-224 

Total | 25 


25.00 


0 

chi2(1) 

_ 

6.10 



Pr>chi2 

= 

0.0135 




_ / 
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Figura 8.9 Janelas de configuragdes do comando sts test. 


SINTAXE 8.4 Comando Itable. 

Itable timevar deadvar [, hazard] [, failure] [, graph] [, level]#)] 

[, by(groupvar)] 

Em que: 

• timevar: Nome da variavel relacionada com o tempo. 

• deadvar: Nome da variavel relacionada com o evento analisado. 

• hazard: Utiliza a fun^ao de risco no lugar da fun^ao de sobrevivencia. 

• failure: Utiliza a fun^ao de risco acumulada no lugar da fun^ao de sobrevivencia. 

• level: Estabelece o nivel de confian^a a ser utilizado. O padrao e 95%. 

• by: A clausula by permite que o usuario separe a base em subamostras utilizando uma 
variavel (groupvar). 
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A tabua de sobrevivencia e similar a tabela exibida pelo comando sts list. Os valores 


< > 

RESULTADOS 8.11 Tabua de sobrevivencia. 


. ltable tempoestudo evento, graph 


Beg. Std. 


Interval 

Total 

Deaths 

Lost 

Survival 

Error 

[95% Conf 

. Int.] 

1 

2 

100 

4 

0 

0.9600 

0.0196 

0.8969 

0.9848 

2 

3 

96 

2 

0 

0.9400 

0.0237 

0.8713 

0.9726 

3 

4 

94 

2 

0 

0.9200 

0.0271 

0.8464 

0.9592 

4 

5 

92 

4 

0 

0.8800 

0.0325 

0.7984 

0.9300 

5 

6 

88 

4 

0 

0.8400 

0.0367 

0.7522 

0.8988 

6 

7 

84 

4 

2 

0.7995 

0.0401 

0.7067 

0.8657 

7 

8 

78 

2 

0 

0.7790 

0.0416 

0.6840 

0.8486 

8 

9 

76 

6 

2 

0.7167 

0.0454 

0.6166 

0.7950 

9 

10 

68 

0 

2 

0.7167 

0.0454 

0.6166 

0.7950 

10 

11 

66 

2 

2 

0.6946 

0.0466 

0.5929 

0.7757 

11 

12 

62 

4 

2 

0.6491 

0.0488 

0.5446 

0.7354 

12 

13 

56 

4 

0 

0.6027 

0.0505 

0.4964 

0.6935 

13 

14 

52 

2 

0 

0.5795 

0.0512 

0.4728 

0.6722 

15 

16 

50 

2 

2 

0.5559 

0.0517 

0.4488 

0.6503 

16 

17 

46 

2 

0 

0.5317 

0.0522 

0.4245 

0.6277 

17 

18 

44 

2 

2 

0.5070 

0.0526 

0.3999 

0.6045 

19 

20 

40 

0 

4 

0.5070 

0.0526 

0.3999 

0.6045 

20 

21 

36 

0 

2 

0.5070 

0.0526 

0.3999 

0.6045 

22 

23 

34 

4 

0 

0.4473 

0.0542 

0.3393 

0.5496 

23 

24 

30 

4 

0 

0.3877 

0.0546 

0.2814 

0.4926 

24 

25 

26 

2 

0 

0.3579 

0.0543 

0.2534 

0.4634 

25 

26 

24 

2 

2 

0.3268 

0.0539 

0.2247 

0.4326 

28 

29 

20 

2 

2 

0.2924 

0.0534 

0.1929 

0.3989 

32 

33 

16 

0 

4 

0.2924 

0.0534 

0.1929 

0.3989 

33 

34 

12 

3 

0 

0.2193 

0.0542 

0.1239 

0.3320 

34 

35 

9 

0 

3 

0.2193 

0.0542 

0.1239 

0.3320 

35 

36 

6 

0 

3 

0.2193 

0.0542 

0.1239 

0.3320 

39 

40 

3 

0 

3 

0.2193 

0.0542 

0.1239 

0.3320 


_ / 


calculados apresentam, todavia, pequenas diferengas em fungao da forma como a variavel 
tempo e considerada (Resultados 8.11 e Figura 8.10). 

Para acessar esse comando, por intermedio da barra de menus, devemos clicar nas 
seguintes opgoes: Statistics ~} Survival analysis ~} Summary statistics, tests, and tables ~} Life 
tables for survival data. Ira surgir uma janela, conforme a Figura 8.11. 

Nesse caso, podemos tambem comparar a sobrevivencia em diferentes grupos, por 
meio do calculo dos estimadores de Kaplan-Meier para a fungao de sobrevivencia de 
grupos especificos e com base na aplicagao de testes simples de significancia (como o 
teste log-rank). 

Entretanto, quando existir uma serie de variaveis explanatorias e, em particular, 
quando algumas destas variaveis forem continuas, e muito mais util que se utilizem 
metodos de regressao, como a regressao de riscos proporcionais, tambem conhecida por 
regressao de Cox. Neste metodo, a fungao de risco para um individuo i e modelado como: 


h i (t) = /z 0 (£)exp(/3bq) 


[Equagao 8.8] 
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Figura 8.10 Grafico da fungao de sobrevivencia. 



Figura 8.11 Janela de configuragdes do comando Itable. 

em que /3' e um vetor pxl de parametros desconhecidos, h (t) e uma fungao des- 
conhecida da taxa de falha, chamada de fungao de base ou basal (baseline), e (f3'x ) e uma 
fungao conhecida, sendo usual a utiliza^ao da distribui^ao exponencial. Este modelo 
e semiparametrico uma vez que, enquanto a fungao (fi'x) assume uma distribuigao 
parametrica, a fungao de base h (t) e estimada de forma nao parametrica. 

A principal suposigao do modelo refere-se ao fato de que individuos de grupos 
diferentes apresentam fungoes de riscos proporcionais entre si, cuja razao entre as mesmas 
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e constante ao longo do tempo. Neste sentido, o risco de qualquer individuo i e um 
multiplo da fungao de risco de qualquer outro individuo j, e o fator e ^'^ x \~ x 2 ) oferece a 
razao de risco (HR). Essa propriedade e denominada hipotese de riscos proporcionais, 
motivo pelo qual esta tecnica tambem e chamada de Modelo de Riscos Proporcionais. 

No Stata®, podemos realizar a regressao de Cox utilizando o comando stcox (Sintaxe 8.5). 


SINTAXE8.5 Comando stcox. 

stcox varlist [, nohr] [, level(#)] 

Em que: 

• varlist: Lista de variavel explicativas. 

• nohr: Exibe os coeficientes e nao as razoes de risco, opgao-padrao. 

• level: Estabelece o nivel de confianga a ser utilizado. 0 padrao e 95%. 


Ainda por meio da analise de sobrevivencia, iremos agora adicionar a variavel idade 
e verificar o seu efeito na probabilidade de ocorrencia do evento de interesse. Na janela 
de comandos do Stata®, digitaremos a seguinte expressao: 

stcox i.remedio idade 


r 


RESULTADOS 8.12 


Regressao de Cox. 


. stcox i.remedio idade 


failure d: evento 
analysis time t: tempo estudo 


Iteration 0: log 
Iteration Is log 
Iteration 2: log 
Iteration 3: log 
Iteration 4s log 
Refining estimates: 
Iteration 0: log 


likelihood = 
likelihood = 
likelihood = 
likelihood = 
likelihood = 


likelihood = 


-251.02372 

-213.30467 

-211.51843 

-211.39682 

-211.39661 

-211.39661 


Cox regression -- Breslow method for ties 


No. of subjects = 
No. of failures = 
Time at risk = 


100 

63 

1629 


Log likelihood = -211.39661 


Number of obs 


100 


LR chi2(3) = 79.25 

Prob > chi2 = 0.0000 


_t 

Haz. Ratio 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

remedio 

2 

.1822332 

.0635977 

-4.88 

0.000 

.0919531 

.361151 

3 

.0430619 

.0201254 

-6.73 

0.000 

.0172296 

.1076244 

idade 

1.116587 

.0285376 

4.31 

0.000 

1.062032 

1.173944 


J 
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O teste da razao da verossimilhanga ( likelihood ratio ) e o mesmo utilizado na regres¬ 
sao logistica e tem como hipoteses: H Q : todos os parametros sao estatisticamente iguais 
a zero; Hp ha pelo menos um parametro estatisticamente diferente de zero. Com um 
p-valor inferior a 0,0001, verificamos que houve rejei^ao da hipotese nula do teste 
(Resultados 8.12). 

Conforme ja vimos no Capitulo 4, o uso do operador i. permite que adicionemos 
uma variavel categorica diretamente em uma regressao. Como a variavel remedio possui 
tres categorias, foram criadas duas variaveis dummies e adicionadas ao modelo regressivo. 

Individualmente, cada razao de risco (ou coeficiente, se tivesse sido utilizada a op^ao 
nohr) teve a sua significance estatistica avaliada pelo teste Z.Verificamos que todas 
as variaveis explicativas do modelo foram consideradas significativas a um nivel de 
significance de 1%. 

Na regressao estimada foram apresentadas as razoes de risco que funcionam de 
maneira similar as razoes de chances ( odds ratios ) da regressao logistica (Resultados 8.12). 
Por exemplo, quando comparamos os individuos que receberam o segundo tratamento 
com aqueles que receberam o primeiro tratamento, verificamos que a probabilidade de 
ocorrencia do evento de interesse e reduzida em 81,78%, mantendo-se constantes as 
demais condi^oes (0,1822 - 1 = -0,8178). 

Quando realizamos a mesma compara^ao, porem, envolvendo o primeiro e o terceiro 
tratamentos, verificamos que a redu^ao passa a ser de 95,7% (0,043 - 1 = — 0,957), 
tambem mantendo-se as demais condi^oes constantes. Em rela^ao a idade do paciente, 
verificamos que o aumento em uma unidade dessa variavel aumenta a probabilidade de 
ocorrencia do evento de interesse em 11,66% (1,1166 - 1 = 0,1166). 

Para realizar uma estima^ao do modelo regressivo de Cox, utilizando a barra de menus, 
podemos selecionar as seguintes opgoes: Statistics Survival analysis Regression models 
Cox proportional hazards model. Sera exibida uma janela, conforme a Figura 8.12. 



Figura 8.12 Janela de configuraqoes do comando stcox. 
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Para que visualizemos os graficos das fungoes de sobrevivencia e de risco acumulada, 
assim como das contributes do risco (Figuras 8.14 a 8.16), precisaremos gerar as res- 
pectivas series, por meio do comando predict (Sintaxe 8.6). 


SINTAXE8.6 Comando predict, 

predict newvar [, bases] [, basec] [, basehc] 

Em que: 

• newvar: Nome da nova variavel que armazenara os valores previstos. 

• bases: Opgao a ser utilizada para a geragao dos valores segundo a fun^ao de sobrevivencia. 

• basec: Opgao a ser utilizada para a geragao dos valores segundo a fun^ao de risco acumu¬ 
lada. 

• basech: Opgao a ser utilizada para a geragao dos valores segundo as contribuigoes do risco. 


Dessa forma, e necessario que solicitemos ao Stata® que sejam geradas as respectivas 
series, por meio dos seguintes comandos: 

predict cox_s, bases 
predict cox_na, basec 
predict cox_ct, basehc 


f > 

RESULTADOS 8.13 Gerando as series das fungoes de sobrevivencia e de risco 
acumuladas, alem das contributes do risco. 

. predict cox_s, bases 
. predict cox_na ; basec 
. predict cox ct, basehc 

s_> 


Para acessar o comando predict, precisamos selecionar as seguintes opgoes na barra 
de menus: Statistics Postestimation Predictions, residuals, etc. Aparecera uma janela, 
conforme a Figura 8.13. 

A partir das novas series geradas, podemos solicitar a geragao dos graficos. Novamente, 
e importante lembrar que os comandos que geram graficos no Stata® sao exibidos na 
mesma janela. Entao, devemos gerar e copiar (ou salvar) um grafico, antes de solicitarmos 
outro. Na janela de comandos do Stata®, informaremos o seguinte: 

twoway line cox_s tempo_estudo, sort connect(J) 
twoway line cox_na tempo_estudo, sort connect(J) 
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Figura 8.13 Janelas de configurates do comando predict. 

twoway line cox_ct tempo_estudo, sort connect(J) 

Quando comparamos estes graficos com aqueles obtidos pelo estimador de 
Kaplan-Meier, verificamos que a inclusao da variavel idade apresenta-nos uma situa^ao 
bastante interessante. Ate o decimo setimo ano, a probabilidade de sobrevivencia e alta. 
A partir desse momento, come^a a haver redu^oes mais intensas na probabilidade de 
sobrevivencia e, conforme vimos anteriormente, esta redu^ao tende a ser maior quanto 
maior for a idade do paciente. 
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RESULTADOS 8.14 Gerando os graficos da analise de sobrevivencia. 




. twoway line cox_s tempoestudo, sort connect(J) 

. twoway line cox_na tempo_estudo, sort connect(J) 
. twoway line coxct tempoestudo, sort connect(J) 


J 
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Figura 8.14 Grafico da fungao de sobrevivencia. 


40 



Figura 8.15 Grafico da fungao de risco acumulada. 
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Figura 8.16 Grafico das contributes do risco. 


Quando estivermos trabalhando com mais de um modelo, podemos comparar o poder 
preditivo dos mesmos por meio do emprego das medidas de associa^ao C de Harrell 
(Harrell's C) e D de Somers (Somers' D). Para acessa-las, utilizaremos o comando estat 
concordance (Sintaxe 8.7). 


SINTAXE 8.7 Comando estat concordance, 

estat concordance [, noshow] 

Em que: 

• noshow: Nao mostra quais sao as variaveis de configuragao do formato utilizado na analise 
de sobrevivencia. 


Na janela de comandos do Stata®, digitaremos o seguinte: 

estat concordance 

As estadsticas C de Harrell e D de Somers alcan^aram os valores de 0,819 e 0,638, 
respectivamente (Resultados 8.15). Conforme discutido, quando tivermos que escolher 
entre dois ou mais modelos, poderemos utilizar tais estadsticas, visto que, quanto maiores 
forem seus valores, maior sera o poder preditivo de um modelo. 

Para acessar o comando estat concordance, por meio da barra de menus, devemos 
selecionar as seguintes op^oes: Statistics Postestimation Reports and statistics. Aparecera 
uma janela, conforme a Figura 8.17. 
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RESULTADOS 8.15 Computado o poder preditivo do modelo regressivo. 


. estat concordance 



failure _d; 

evento 


analysis time t: 

tempo estudo 


Harrell's C concordance statistic 


Number of subjects 

(N) 

100 

Number of comparison pairs (P) 

3651 

Number of orderings 

as expected (E) = 

2968 

Number of tied predictions (T) = 

44 

Harrell 1 s C 

= (E + T/2) / P = 

.819 


Somers' D =» 

.6379 


V_/ 



Figura 8.17 Janela de configuraqoes do comando estat, selecionando-se a opgao concordance. 

Conforme discutido, a principal suposigao do modelo de riscos proporcionais refere-se ao 
fato de que individuos de grupos diferentes apresentam funcoes de riscos proporcionais entre 
si, cuja razao entre as mesmas e constante ao longo do tempo. Para verificar se a amostra uti- 
lizada e realmente adequada a suposicao, utilizaremos o comando estat phtest (Sintaxe 8.8). 

Para testar se o pressuposto da proporcionalidade do risco foi observado, digitaremos 
na janela de comandos o seguinte: 

SINTAXE 8.8 Comando estat phtest. 

estat phtest [, detail] 

Em que: 

• detail: Alem do teste geral, essa opgao exibe o resultado do teste para cada regressor. 
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estat phtest, detail 


-\ 

RESULTADOS 8.16 Testando o pressuposto de proporcionalidade do risco. 

. estat phtest, detail 

Test of proportional-hazards assumption 
Time: Time 


1 

rho 

ch±2 

df 

Prob>chi2 

lb.remedio | 



1 


2.remedio | 

0.13224 

0.94 

1 

0.3311 

3.remedio | 

-0.07534 

0.34 

1 

0.5605 

idade | 

-0.06426 

0.23 

1 

0.6291 

global test | 


1.99 

3 

0.5750 


_ / 


De acordo com os p-valores obtidos por meio do teste do pressuposto de propor¬ 
cionalidade do risco, e possivel verificarmos que nao houve rejei^ao da hipotese nula 
de que os riscos sejam proporcionais entre si, nem no teste global, nem nos individuals 
para cada regressor (Resultados 8.16). 

Para acessar o comando estat phtest, via barra de menus, devemos selecionar as 
seguintes op^oes: Statistics Postestimation ~} Reports and statistics. Ira surgir uma janela, 
conforme a Figura 8.18. 

8.4. EXERCICIOS 

1. Por meio do Arquivo AIDS.dta, realize a analise de sobrevivencia com base no 
procedimento Life Table (segregando-a segundo o tipo de droga). Sendo assim: 

a. Qual a probabilidade estimada de sobrevivencia dos individuos com AIDS apos 
cinco anos de estudo? Demonstre os calculos. 

b. Ha diferen^as entre o tipo de drogas? 

c. Ha diferen^as entre o tipo de drogas para individuos acima de 55 anos? 

d. Ha diferenga na sobrevivencia de individuos acima de 55 anos dos demais individuos? 

2. Um pesquisador deseja modelar o tempo gasto por um estudante para obter uma 
pos-gradua^ao. O arquivo pos_graduacao.dta contem quatro colunas: 

• Ano: codificado de 1 a 14, representando os anos desde o fim da gradua^ao. 

• Universidade: 

- 1 para Universidade A, 

2 para Universidade B, 
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Figura 8.18 Janelas de configurates do comando estat, selecionando-se a opqao phtest. 


- 3 para Universidade C. 

• Residencia: 1 para residentes permanentes; 2 para residentes temporaries. 

• Evento: Numero de estudantes nesta categoria. 

Por intermedio do procedimento Kaplan-Meier: 

a. Verifique se ha diferengas entre as universidades. 

b. Ha diferengas entre os tip os de residencia? 

3. Uma estudante interessada em se casar, com o intuito de escolher o parceiro ideal, 
realizou uma pesquisa para determinar os principals fatores associados a sobrevivencia 
ao evento divorcio. A unidade de observagao pesquisada foram casais e o evento 
de interesse, o divorcio. A ausencia de dados e a viuvez sao tratadas como eventos 
censurados. As variaveis englobadas na pesquisa sao, portanto: 

• id: identificagao do casal. 

• heduc: anos de estudo do marido, codificado como: 
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- 0 = menos de 12 anos, 

- 1 = 12 a 15 anos, e 

- 2 = 16 ou mais anos. 

• Cas_anterior : codificado 1 se alguem do casal ja foi casado e 0, caso contrario. 

• Jilhos : codificado 1 se o casal possui filhos e 0, caso o contrario. 

• anos: dura^ao do casamento, desde a data do casamento ate a data do divorcio ou 
do dado censurado. 

• div: o indicador de falha, codificado como 1 para divorcio e 0 para dados censu¬ 
rado s. 

Por meio do procedimento Kaplan-Meier aplicado ao arquivo divorcio.dta: 

a. Qual a probabilidade de um casal sobreviver ao divorcio depois de cinco anos de 
casados? 

b. Verifique se ha diferen^as na probabilidade em se divorciar de acordo com o nivel 
de forma^ao dos maridos. 

c. Ha diferen^as entre os casais com e sem filhos? 

d. Ha diferen^as entre os casais com maridos que ja foram casados e os casais com 
maridos que estao no primeiro casamento? 

4. Ainda por meio da utilizagao do arquivo divorcio.dta, estime o Modelo de Ris- 
cos Proporcionais.Tambem esboce o grafico de sobrevivencia e o grafico de risco 
acumulado para os casos em que o marido ja e divorciado ou nao. 
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E cada vez mais crescente e importante a utiliza^ao de modelos que envolvam dados 
provenientes de varias cross-sections ao longo do tempo (dados em painel). Como muitos 
dados de empresas, municipios ou paises sao divulgados periodicamente, o pesquisador 
e convidado, naturalmente, a aplicar modelos longitudinals para o estudo de fenomenos 
que sofrem influencia das diferen^as entre os individuos e da propria evolu^ao temporal. 

Segundo Marques (2000), a principal vantagem da utiliza^ao de modelos de dados 
em painel refere-se ao controle da heterogeneidade individual, ou seja, a possibilidade 
de se medirem separadamente os efeitos gerados por conta de diferen^as existentes entre 
cada observa^ao em cada cross-section , alem de ser possivel avaliar a evolu^ao, para um 
dado individuo, das variaveis em estudo ao longo do tempo. 

Por outro lado, ainda de acordo com Marques (2000), os dados em painel providen- 
ciam maior quantidade de informa^ao, maior variabilidade dos dados, menor colinearida- 
de entre as variaveis, maior numero de graus de liberdade e maior eficiencia na estima^ao. 
A inclusao da dimensao em cross-section, num estudo temporal, confere maior variabi¬ 
lidade aos dados, na medida em que a utiliza^ao de dados agregados resulta em series 
mais suaves do que as series individuals que lhes servem de base. Este aumento na 
variabilidade dos dados contribui para a redu^ao de uma eventual colinearidade exis- 
tente entre variaveis. 

Usaremos em nossos exemplos as bases de dados Painel Curto.dta e Painel Longo. 
dta. As referidas bases contem, respectivamente, 11.220 e 580 observa^oes referentes a 
dados ficticios sobre mortalidade por causas externas ao longo do tempo para municipios 
provenientes de cinco estados da federa^ao (Quadro 9.1). 

Quadro 9.1 Variaveis que compoem as bases de dados Painel Curto.dta e Painel Longo.dta 


Variavel 

Descri^ao 

Tipo 

mes 

Mes 


id 

Identificagao do municipio 


estado 

Estado da federa^ao 

Qualitativa 

t 

Periodo para cada municipio 

Quantitativa 

ano 

Ano 


renda 

Renda media familiar (R$) do municipio em determinado mes 

Quantitativa 

invest 

Investimento mensal em seguranga publica (R$ x 10.000) no 
municipio em determinado mes 

Quantitativa 

mort 

Mortalidade ou causas externas (para cada 100.000 habitantes) 
no municipio em determinado mes 

Quantitativa 
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Este capitulo tem como objetivo apresentar e discutir os principals estimadores de 
dados em painel que podem ser utilizados, bem como auxiliar na defini^ao do modelo 
mais consistente a ser adotado, em fun^ao das caracteristicas dos dados. 

9.1. MODELOS DE DADOS EM PAINEL 

Existem muitos modelos diferentes que podem ser utilizados para dados em painel. A dis- 
tin^ao basica entre eles, segundo Greene (2007), e a existencia de efeitos fixos ou aleatorios. 
O termo “efeitos fixos” oferece uma ideia equivocada da modelagem uma vez que, para 
ambos os casos, os efeitos no nivel do individuo (firmas, entidades governamentais ou paises, 
por exemplo) sao aleatorios.Assim, segundo Cameron eTrivedi (2009), os modelos de efeitos 
fixos apresentam a complica^ao adicional de que os regressores sejam correlacionados com 
os efeitos do nivel do individuo e, portanto, uma estima^ao consistente dos parametros do 
modelo requer uma elimina^ao ou controle dos efeitos fixos. Um modelo que leva em 
conta os efeitos especificos do individuo i para uma variavel dependente y. t especifica que: 

Yit ~ Poi + x itPi [Equa^ao 9.1] 

em que x’ u sao regressores, /3 0 . sao os efeitos aleatorios especificos de individuo e £. ( 
representa o erro idiossincratico. 

Fazendo o termo do erro ser /JL jt = (3 0j + £ e permitindo que x } seja correlacionado com 
o termo de erro invariante no tempo (/3 0 ),presume-se que x’ it nao seja correlacionado com o 
erro idiossincratico £. O modelo de efeitos fixos implica que E(y. f \ /3 0j , x. f ) = /3 Q . + 
presumindo que E(£.J /3 Qi , x. f ) = 0, de modo que /3. = dE (y.J /3 Qi , x.ydx. A vantagem 
do modelo de efeitos fixos e que pode ser obtido um estimador consistente do efeito 
marginal do j-esimo regressor de E(y.J (3 or x f ), dado que x t varia no tempo. 

No modelo de efeitos aleatorios, por outro lado, pressupoe-se que /3 0 . e puramente 
aleatorio, ou seja, que nao e correlacionado com os regressores. A estima^ao, portanto, 
e elaborada com um estimador FGLS (feasible generalized least squares). A vantagem do 
modelo de efeitos aleatorios e que este estima todos os coeficientes, mesmo dos regres¬ 
sores invariantes no tempo, e, portanto, os efeitos marginais. Ademais, E (y \ x.j pode ser 
estimado. Porem, a grande desvantagem e que estes estimadores sao inconsistentes se o 
modelo de efeitos fixos for mais apropriado. 

Conforme ja discutido, a variavel dependente e os regressores podem potencialmente 
variar simultaneamente ao longo do tempo e entre individuos. Enquanto a varia^ao, ao 
longo do tempo ou para um dado individuo, e conhecida por within variance , a variagao entre 
individuos e chamada de between variance. De acordo com Wooldridge (2010), no modelo de 
efeitos fixos o coeficiente de um regressor com baixa varia^ao within sera imprecisamente 
estimado e nao sera identificado se nao houver qualquer within variance. Assim, e de fun¬ 
damental importancia a distin^ao entre estas varia^oes para a defmigao do melhor modelo 
de dados em painel. 
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A variagao total das observagoes de um regressor x em torno da media geral 
x it no conjunto de dados pode ser decomposta na soma da variagao 
within ao longo do tempo para cada individuo em torno de x. = 1 / T^ x u e na 
variagao between entre individuos (para x. em torno de x). De acordo com Cameron 
eTrivedi (2009): 


2 

Variancia Within: xW 

2 

Variancia Between: s xb 

2 .. 

Variancia Geral: * x ° ~ 


^ ^ X i +:X: ) 

ZX <( x «-*) 2 


'L.T.-l 


[Equagao 9.2] 
[Equagao 9.3] 
[Equagao 9.4] 


As notagoes N e E.T. correspondem, respectivamente, ao numero de individuos e ao 
numero total de observagoes ao longo do tempo. 

Este capitulo traz a aplicagao de modelagens com painel de dados por meio de dez 
diferentes estimadores, a fim de propiciar um melhor entendimento dos seus conceitos 
e das suas condigoes de uso. O Quadro 9.2, com base em Cameron e Trivedi (2009) e 
em Favero (2013), apresenta estes dez diferentes modelos. 


Quadro 9.2 Modelos de dados em painel a serem estimados 


Modelo 

Descrigao 

POLS com Erros-Pa- 
drao Robustos 
Clusterizados 

Yu = Po +X 'n Pi +AC 

Estimagao MQO (minimos quadrados ordinarios) com controle da 
correlagao within do erro jU ;Y ao longo do tempo. 

Modelo com Estima- 
dor Between 

y, = A. + x \ t Pi + ( Pot ~ Po + C) 

O estimador between somente utiliza a variagao das cross-sections e e o 
estimador MQO de uma regressao de E em fungao de x. .A con- 
sistencia deste estimador requer que o termo de erro (/3 0i — /3 0 + £ { ) 
nao seja correlacionado com x. f . 

Efeitos Fixos 

Yu=Poi +x 'iA +e i, 

Os parametros f3 0j podem ser correlacionados com os regressores x , 
o que permite uma forma limitada de endogeneidade. Pressupoe-se 
que x nao seja correlacionado com o erro idiossincratico £ . 

Efeitos Fixos com 
Erros-Padrao Robus¬ 
tos Clusterizados 

Yu = Poi +x 'uPi +e u 

Os termos f3 0j podem ser correlacionados com os regressores x , o 
que permite uma forma limitada de endogeneidade. Presume-se que 
os erros sejam independentes entre individuos e que £ seja hetero- 
cedastico. 
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Quadro 9.2 Modelos de dados em painel a serem estimados (cont.) 


Modelo Descrigao 


Efeitos Aleatorios y . = x'fr + (#. +£ g 

Os parametros (3 0j e os termos de erro idiossincratico £. f sao indepen- 
dentes e identicamente distribuidos (i.i.d.). O estimador de efeitos 
aleatorios e o FGLS de (3 r dado que corr(jLl it ,/I is ) = 0 2 a / (C 2 a +(J 2 e ). 


Efeitos Aleatorios com 
Erros-Padrao Robus- 
tos Clusterizados 


Yit - X 'tPl + (Poi +£ it) 

Se nao houver efeitos fixos, mas os erros apresentarem correla^ao 
within, o estimador de efeitos aleatorios e consistente, porem 
ineficiente. Portanto, erros-padrao robustos clusterizados precisam ser 
obtidos. 


Efeitos Fixos com Ter- y . = p g . + x 'ft + ju j( 

mos de Erro AR(1) Com fU k = p ( /t ir _, + £ it . Considera-se ft, como sendo um efeito fixo. 
Efeitos Aleatorios com y = f3 y + x'/3 ] + jl 

Termos de Erro AR(1) Q om y^ — p ^ ^ + £. f . Considera-se f3 ()i como sendo um efeito aleatorio. 
Pooled com Metodo ^ ^ ' p { + £. 

de Estimagao MQO e Q om /# _ p i# _|_ p ? em q Ue os £ S ao serialmente nao correlaciona- 

Termos de Erro AR(1) i ’ i ~ . • i- G • i _ , n 

v ’ dos, mas com correlagao entre mdividuos igual a corr (£, £.j — <J ^ 0. 

Poo/cd com Metodo ^ p { + £. 

de Estimagao FGLS e si m q ar ao mo delo pooled com metodo de estimacao MQO, mas com 

Termos de Erro AR(1) ■ i 

v ' estimador FGLS. 


9.2. APLICA^AO 

Como muitas bases de dados em ciencias sociais aplicadas apresentam periodicidade 
de divulga^ao mensal, trimestral ou anual, e comum que os estudos nestas areas utilizem 
modelos de dados em painel curtoja que o numero de individuos (empresas, municipios 
ou paises, por exemplo) ultrapassa o numero de periodos de divulga^ao dos dados. Por 
outro lado, nada impede que o pesquisador baseie seu estudo numa amostra menor de 
individuos ou utilize dados com frequencia de divulga^ao maior (diaria, por exemplo) 
o que poderia ocasionar uma modelagem com dados em painel longo. De qualquer 
maneira, e fundamental que a identifica^ao desta caracteristica na base de dados seja feita 
de forma anterior a modelagem propriamente dita. 

Inicialmente, uma base ficticia contendo dados sobre mortalidade por causas 
externas para cada 100.000 habitantes (indicador de violencia) em 299 municipios 
provenientes de 5 estados brasileiros (Bahia, Goias, Minas Gerais, Para e Sao Paulo), ao 
longo de 100 meses (2006-2012), totalizando 11.220 observa^oes, sera utilizada para 
o estudo de um painel curto (arquivo Painel Curto.dta). Na sequencia, um estrato 
desta base sera utilizado, com dados de apenas 10 municipios ao longo de 58 meses, 
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totalizando 580 observagoes, com o objetivo de se estudar o painel longo (arquivo 

Painel Longo. dta). 

A definigao dos individuos (municipios) e dos periodos (meses) e dada pelo 
comando: 

xtset id t 


f \ 

RESULTADOS 9.1 Definindo o painel. 

[ . xtset id t 

panel variable: id (unbalanced) 
time variable: t, 1 to 100, but with gaps 
delta: 1 unit 

_z 


A base apresenta dados considerados desbalanceados, uma vez que nao ha uma 
quantidade igual de periodos para cada um dos municipios estudados. 

Antes de elaborarmos os modelos de regressao em painel propriamente ditos, iremos 
analisar o comportamento da mortalidade por causas externas ao longo do tempo. Por meio 
da Figura 9.1, e possivel verificar que este indicador de violencia urbana apresenta compor- 



o 
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Bahia 



Goias Minas Gerais 


n-1-1- 

0 50 100 






t 


• mortalidade por causas externas (por 100.000 hab.) Fitted values 

Graphs by estado 

Figura 9.1 Evolugao da mortalidade por causas externas para os municipios de cada estado. 
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tamento distinto, em media, para cada um dos 5 estados brasileiros ao longo do tempo. Ape- 
sar de a analise ser feita para cada municipio, a Figura 9.1, obtida por meio do comando a 
seguir, apresenta o comportamento para todos os municipios de cada estado. 

graph twoway scatter mort t | | lfit mort t, by(estado) 


f > 

RESULTADOS 9.2 Gerando o grafico de mortalidade em fungao 
do tempo para cada estado. 

S_> 


Cada ponto na Figura 9.1 representa um par mortalidade-mes para determina- 
do municipio. Enquanto alguns estados apresentam crescimentos neste indicador 
de violencia, outros apresentam, ainda que de forma incipiente, certa redu^ao. Este 
comportamento sugere a elabora^ao de modelos longitudinais, ja que as razoes que 
levam a este fenomeno (regressores) podem variar entre municipios e ao longo do 
tempo, conforme sera apresentado e discutido adiante. Enquanto a Figura 9.2 apresenta 
a varia^ao dos indicadores de mortalidade por causas externas ao longo do tempo 
para cada municipio, ou seja, mostra os desvios do indicador de violencia em rela^ao 
a media individual de cada municipio (within variation), a Figura 9.3 apresenta a 



-50 0 50 100 

t 


• mortalidade por causas externas (por 100.000 hab.) - Fitted values 

Figura 9.2 Desvios da mortalidade por causas externas em relaqao a media de cada municipio ao 
longo do tempo (within variation,). 
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• mortalidade por causas externas (por 100.000 hab.) Fitted values 

Figura 9.3 Desvios da mortalidade por causas externas em relagao a media geralpara cada instante 
de tempo (between variation,). 


variagao deste indicador entre os municipios, ou seja, mostra os desvios da mortalidade 
por causas externas nos municipios em relagao a media geral para cada instante de 
tempo (between variation). Os comandos para a elaboragao das Figuras 9.2 e 9.3 sao, 
resp e c tivamente: 

preserve 
xtdata, fe 

graph twoway scatter mort t | | lfit mort t 
restore 


< > 

RESULTADOS 9.3 Gerando o grafico de within variation. 


. preserve 
. xtdata, fe 

. graph twoway scatter mort t || lfit mort t 
. restore _ 

s_> 


preserve 
xtdata, be 

graph twoway scatter mort t | | lfit mort t 
restore 
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— 

RESULTADOS 9.4 Gerando o grafico de between variation. 


A 


I . preserve 

. xtdata, be 

. graph twoway scatter mort t || Ifit mort t 
| . restore ____ 

_Z 

Por meio da Figura 9.3 e possivel verificar que ha 5 patamares de mortalidade por 
causas externas, correspondentes aos municipios situados em cada um dos 5 estados 
considerados na analise. Os Resultados 9.5, obtidos por meio do comando tabstat, pos- 
sibilitam que observemos este fenomeno. 

tabstat mort, by(estado) 

Como discutido, 10 diferentes modelos de dados em painel serao elaborados, com dife- 
rentes considera^oes sobre os estimadores e os termos de erro. O modelo geral e dado por: 

mort, = fi 0i + p r (renda) u + /3 2 . (invest), + £, [Equa ? ao 9.5] 

em que e (3 ? representam as mudan^as na mortalidade mensal por causas exter¬ 
nas para cada 100.000 habitantes quando uma unidade de renda media familiar mensal 
(R$) e gerada, ou quando uma unidade de investimento mensal em seguran^a publica 
(R$ x 10.000) e disponibilizada, respectivamente, mantidas as demais condicoes constantes. 

A seguir, serao discutidos os resultados das modelagens, tanto para um painel curto, 
quanto para um painel longo. 


RESULTADOS 9.5 Obtendo as medias da variavel mort por estado. 


. tabstat mort, by(estado) 

Summary for variables: mort 

by categories of: estado 

estado I mean 


- + - 

Bahia 

87.2779 

Goias 

81.05629 

Minas Gerais 

77.24532 

Para 

94.49694 

Sao Paulo 

71.10612 


Total 

| 78.71848 
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9.2.1 Modelos para dados em painel curto 

Como a amostra, neste caso, oferece dados de 299 municipios em 100 meses, o painel 
pode ser considerado curto (T < N). 

A seguir e apresentada a decomposigao de variancia para cada uma das variaveis, 
obtida por meio do comando xtsum. 
xtsum id t mort renda invest 


( -”- \ 

RESULTADOS 9.6 Obtendo a decomposi^ao de variancia para cada 

variavel. 


. xtsum 

Variable 

id t mort 

renda invest 

Mean Std. Dev. 

Min 

Max 

Observations 

id 

overall 

246204.2 

29044.95 

213100 

293290 

N 

= 

11220 


between 


29226.07 

213100 

293290 

n 

= 

299 


within 


0 

246204.2 

246204.2 

T-bar 

= 

37.5251 

t 

overall 

47.70481 

29.18401 

1 

100 

N 

_ 

11220 


between 


27.49955 

2 

100 

n 

= 

299 


within 


21.47196 

-16.42019 

113.0894 

T-bar 

= 

37.5251 

mort 

overall 

78.71848 

8.739225 

48.01177 

118.4197 

N 

_ 

11220 


between 


8.143473 

67.75149 

95.76708 

n 

= 

299 


within 


3.713448 

55.50703 

103.0668 

T-bar 

= 

37.5251 

renda 

overall 

3708.86 

704.7227 

270.77 

5489.623 

N 

= 

11220 


between 


720.6189 

2256.562 

4378.631 

n 

= 

299 


within 


49.38064 

1618.276 

4819.852 

T-bar 

= 

37.5251 

invest 

overall 

515.4366 

116.598 

30.96548 

691.8675 

N 

_ 

11220 


between 


118.8921 

311.1364 

640.0215 

n 

= 

299 


within 


7.395163 

73.60609 

696.2087 

| T-bar 

= 

37.5251 


V_/ 


De acordo com os Resultados 9.6, nota-se que o municipio e obviamente invariante 
ao longo do tempo e, portanto, apresenta variagao within igual a zero. Por outro lado, 
a variavel referente ao tempo t nao e invariante entre municipios, ja que se trata de 
um painel desbalanceado e, portanto, a sua variagao between nao e igual a zero.Todas 
as variaveis da Equagao 9.5 apresentam maior variagao entre municipios ( between ) do 
que ao longo do tempo (within), porem ainda nao e possivel afirmar que a estimagao 
within resultara numa perda de eficiencia, ja que a proporgao entre as variancias within e 
between de cada variavel e diferente e ainda nao se conhecem as significances estatisticas 
de cada uma delas nos modelos. Os resultados obtidos por meio do comando xtsum, 
todavia, oferecem maior embasamento para a adogao dos modelos de dados em painel e 
a aplicagao de diversos estimadores. As colunas “Minimo” e “Maximo” apresentam, res- 
pectivamente, os valores minimos e maximos de x para a linha “geral”, x. para a linha 
“ between ” e (x it + *) para a linha “within”. 
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Dessa forma, partiremos agora para a elabora^ao das diversas regressoes para o painel 
curto. Os comandos para a realiza^ao de cada uma delas encontram-se a seguir: 

- POLS com Erros-Padrao Robustos Clusterizados: 

reg mort renda invest, vce(cluster id) 

- Modelo com Estimador Between : 

xtreg mort renda invest, be 

- Efeitos Fixos: 

xtreg mort renda invest, fe 

- Efeitos Fixos com Erros-Padrao Robustos Clusterizados: 

xtreg mort renda invest, fe vce(cluster id) 

- Efeitos Aleatorios: 

xtreg mort renda invest, re 

- Efeitos Aleatorios com Erros-Padrao Robustos Clusterizados: 

xtreg mort renda invest, re vce(cluster id) 

Os Resultados 9.7 apresentam os outputs dos seis modelos de dados em painel curto, 
gerados por meio do seguinte comando: 

quietly reg mort renda invest, vce(cluster id) 

estimates store POLS_rob 

quietly xtreg mort renda invest, be 

estimates store BE 

quietly xtreg mort renda invest, fe 

estimates store FE 

quietly xtreg mort renda invest, fe vce(cluster id) 
estimates store FE_rob 
quietly xtreg mort renda invest, re 
estimates store RE 

quietly xtreg mort renda invest, re vce(cluster id) 
estimates store RE_rob 

estimates table POLS_rob BE FE FE_rob RE RE_rob, b se stats(N r2 r2_o 
r2_b r2_w F chi2) 

Como se pode observar, os coeficientes estimados variam de modelo para modelo, 
o que reflete a existencia de resultados diferentes se as varia^oes within ou between forem 
utilizadas. 

Primeiramente verifica-se, em rela^ao a adequa^ao dos modelos, que o vetor de re- 
gressores apresenta significance estatistica em todos os casos (sig. F para os modelos POLS, 
between e com efeitos fixos, e sig. Wald % 2 para os modelos com efeitos aleatorios). Alem 
disso, verifica-se a existencia de maiores valores para os R 2 between em todos os modelos 
em que esta estatistica e calculada, o que demonstra que a varia^ao que ocorre na variavel 
dependente e consideravelmente maior entre os municipios do que para um mesmo 
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RESULTADOS 9.7 Apresentando os outputs dos modelos em painel curto. 


quietly reg mort renda invest, vce(cluster id) 
estimates store POLS rob 


quietly xtreg mort renda invest, be 
estimates store BE 


quietly xtreg mort renda invest, fe 
estimates store FE 


quietly xtreg mort renda invest, fe vce (cluster id) 
estimates store FE rob 


quietly xtreg mort renda invest, re 
estimates store RE 


quietly xtreg mort renda invest, re vce (cluster id) 
estimates store RE rob 


. estimates table POLS_rob 

BE FE FErob 

RE RE_rob, b 

se stats(N r2 

r2_o r2_b r2 

_w F chi2) 

Variable | 

POLS rob 

BE 

FE 

FE rob 

RE 

RE rob 

renda | 

-.00650285 

-.00727341 

-.00136705 

-.00136705 

-.00542681 

-.00542681 

1 

.00071806 

.00054628 

.0007951 

.00062781 

.00034097 

.00099905 

invest | 

-.02835148 

-.02349384 

- .02268309 

-.02268309 

-.03471683 

- .03471683 

1 

.00432726 

.00331108 

.00530924 

.00465684 

.00207878 

.00594336 

cons | 

117.45004 

117.68013 

95.48036 

95.48036 

116.65975 

116.65975 

1 

.53752686 

.55076075 

4.8035626 

4.2436396 

.4597037 

.74389982 

N | 

11220 

11220 

11220 

11220 

11220 

11220 

r2 | 

.8018893 

.96071666 

.00167011 

.00167011 



r2 o | 


.8016247 

.79669279 

.79669279 

.80141038 

.80141038 

r2_b | 


.96071666 

.9524374 

.9524374 

.95917397 

.95917397 

r2 w | 


.00035193 

.00167011 

.00167011 

.00109736 

.00109736 

F | 

8370.7721 

3619.5006 

9.133222 

12.368975 



chi2 j 





8424.851 

12847.511 

legend: b/se 


municipio ao longo do tempo. Em outras palavras, a mortalidade por causas externas nao 
tern se alterado em media ao longo do tempo para cada um dos municipios estudados. 
Entretanto, seus valores medios sao diferentes quando a comparagao e elaborada entre 
os municipios. 

Com relagao aos regressores (variaveis renda e invest ), verifica-se, para todos os mo¬ 
delos, que os respectivos coeficientes sao estatisticamente diferentes de zero. O mesmo 
tambem pode ser dito em relagao ao intercepto. 

Os regressores estimados para o modelo de efeitos aleatorios oferecem erros-padrao, 
que sao apresentados abaixo do coeficiente de cada regressor para cada modelo, menores 
do que para qualquer outro modelo. O teste Breusch-Pagan, cujo comando e aplicado 
apos a modelagem de efeitos aleatorios (comando xttestO), auxilia na rejeigao da hipotese 
nula de que ha adequagao do modelo POLS em relagao ao modelo de efeitos aleatorios, 
ja que % 2 = 741,84 (sig. % 2 = 0,000). 

xttestO 
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RESULTADOS 9.8 Teste Breusch-Pagan. 


. xttestO 



Breusch and Pagan Lagrangian 

multiplier test 

for random effects 

mort [id, t] = Xb + u[id] + e[id,t] 


Estimated results: 

Var sd 

= sqrt(Var) 

mort | 

76.37405 

8.739225 

© 

14.14491 

3.760971 

U 1 

1.649652 

1.284388 

Test: Var(u) = 0 

chibar2(01) = 

741.84 

Prob > chibar2 = 

0.0000 


_ / 


Na sequencia, por meio do teste F de Chow, que e apresentado ao se estimar o modelo 
de efeitos fixos, rejeita-se a hipotese nula de que ha igualdade de interceptos e inclinacoes 
para todos os municipios (POLS). Portanto, estes parametros diferem daqueles obtidos 
por meio do modelo de efeitos fixos, ja que F = 3,63 (sig. F = 0,000). 

xtreg mort renda invest, fe 


--- ^ 

RESULTADOS 9.9 Modelo de efeitos fixos, com destaque para o teste 

F de Chow. 


. xtreg mort renda invest, fe 


Fixed-effects (within) regression 

Number of obs 


= 

11220 

Group variable: id 

Number of groups 

= 

299 

R-sq: within = 0.0017 

Obs per group: 

min 

= 

1 

between = 0.9524 


avg 

= 

37.5 

overall = 0.7967 


max 

= 

100 


F(2,10919) 


= 

9.13 

corr(u_i, Xb) = 0.9539 

Prob > F 


= 

0.0001 


mort | 

Coef. 

Std. Err. 

t 

p>it| 

[95% Conf. 

Interval] 

renda | 

-.001367 

.0007951 

-1.72 

0.086 

- .0029256 

.0001915 

invest | 

-.0226831 

.0053092 

-4.27 

0.000 

- .0330902 

-.012276 

cons | 

95.48036 

4.803563 

19.88 

0.000 

86.06451 

104.8962 

sigma u | 

4.639705 






sigma e | 

3.7609715 






rho | 

.60347056 

(fraction of 

variance due 

to u_i) 


F test that all 

u i= 0: 

F (298, 10919) 

= 

3.63 

Prob > 

F = 0.0000 



























Regressao com Dados em Painel 235 



ELSEVIER 


Por fim, segundo Cameron eTrivedi (2009), e essencial que se discuta a distingao 
entre os modelos de efeitos fixos e aleatorios na analise de dados em painel. Sob a 
hipotese nula de que os efeitos individuais sao aleatorios, o teste de Hausman verifica 
se os estimadores sao similares (efeitos aleatorios) ou divergem entre si (efeitos fixos) 
para cada individuo. Ja discutimos, quando da aplicagao do comando xtsum e por 
meio da analise do R 2 within e do R 2 between , que pouca variagao ocorre na variavel 
dependente ao longo do tempo para cada municipio (R 2 within baixo e bem menor 
do que o R 2 between), porem alteragoes visiveis sao percebidas entre individuos. 
Neste momento, portanto, e importante saber se os estimadores que influenciam o 
comportamento da variavel dependente entre municipios tambem divergem entre 
municipios (efeitos fixos). 

No nosso exemplo, a aplicagao do teste de Hausman (comando apresentado a seguir) 
auxilia na rejeigao da hipotese nula de que o modelo de efeitos aleatorios oferece 
estimativas dos parametros mais consistentes, ja que, para este caso, % 2 = 36,53 (sig. 
% 2 = 0,000), conforme mostram os Resultados 9.10. 

hausman FE RE, sigmamore 

f \ 

RESULTADOS 9.10 Teste de Hausman. 


. hausman FE RE, 

, sigmamore 





- Coefficients - 



1 

(b) 

(B) 

(b-B) 

sqrt(diag(V b-V B)) 


FE 

RE 

Difference 

S.E. 

renda | 

-.001367 

-.0054268 

.0040598 

.0007176 

invest | 

-.0226831 

-.0347168 

.0120337 

.0048808 


b 

= consistent 

under Ho and Ha; 

obtained from xtreg 

B = 

inconsistent 

under Ha, efficient under Ho; 

obtained from xtreg 

TeBt: Ho: 

difference in coefficients 

i not systematic 



chi2(2) = 

(b-B)'[(V b-V 

B)*(-1)](b-B) 



= 

36.53 




Prob>chi2 = 

0.0000 




V_/ 

Desta forma, seguimos com o modelo de efeitos fixos. 

E interessante comentar que, como nao ha alteragoes significativas na mortalidade 
por causas externas para cada municipio ao longo do tempo, se as regressoes tivessem 
sido elaboradas apenas com o tempo (variavel t) como regressor da variavel mort, o 
teste de Hausman nao rejeitaria a hipotese nula de que os efeitos individuais fossem 
aleatorios, ou seja, o estimador da variavel t seria similar entre todos os individuos. 

Seguindo uma importante discussao elaborada por Islam (1995), a principal utilidade 
da modelagem de dados em painel e permitir que sejam analisadas as diferengas que 
porventura ocorram entre empresas, setores, municipios, estados, paises, entre outras 
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classificagoes. Os Resultados 9.11 apresentam os coeficientes da regressao de dados em 
painel com efeitos fixos para cada um dos estados da amostra. 

preserve 

statsby, by(estado) clear: xtreg mort renda invest, fe 

list, clean 

restore 

Embora o indicador de violencia urbana (mortalidade por causas externas) sofra 
influencia negativa da evolu^ao da renda media familiar mensal e do montante mensal 
disponibilizado para investimento em seguran^a publica nos municipios, verifica-se que 
essas influences ocorrem de forma diferente e, em algumas localidades, inclusive com 
sinal invertido em rela^ao a media geral. Os diferentes coeficientes e sinais dos regres- 
sores e da constante expressam a importancia de se considerar a modelagem de dados 
em painel e propiciam a formula^ao de novos estudos. 


RESULTADOS 9.11 Coeficientes da regressao em painel com efeitos fixos 
para cada estado. 


. preserve 

. statsby, by(estado) clear: xtreg mort renda invest, fe 
(running xtreg on estimation sample) 

command: xtreg mort renda invest, fe 

by: estado 


Statsby groups 
- + 1 + -- 


list, clean 


--- +-3 -- 


5 



estado 

b renda 

b invest 

b cons 

1 . 

Bahia 

- .023373 

.0594407 

133.6311 

2. 

Goias 

-.0091834 

-.1119817 

159.4829 

3. 

Minas Gerais 

- .002943 

- .0264067 

102.875 

4. 

Para 

.0028669 

-.0568054 

105.6951 

5. 

Sao Paulo 

.0007185 

.0188598 

55.94058 


restore 


9.2.2 Modelos para dados em painel longo 

Para este caso, como a amostra oferece dados de 10 municipios ao longo de 58 meses 
para cada um deles (painel balanceado), o painel pode ser considerado longo (T > N). 
Aplicaremos o mesmo comando xtset para que seja defmido o painel. 
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xtset id t 



\ 

RESULTADOS 9.12 Definindo o painel longo. 

I| . xtset id t 


I panel variable: 

id (strongly balanced) 1 

1 time variable: 

t, 1 to 58 I 

| delta: 

1 unit | 


-j 


Como a influencia temporal e bastante importante em series longas, modelos de 
efeitos fixos e aleatorios serao tambem aplicados com a consideragao de componentes 
auto-regressivos (AR(1)) para os residuos, o que pode resultar em parametros com es- 
timativas mais eficientes para paineis longos. 

Assim como elaborado para o painel curto, os Resultados 9.13 apresentam a decom- 
posigao de variancia para cada uma das variaveis do painel longo. 
xtsum id t renda mort invest 


f > 

RESULTADOS 9.13 Obtendo a decomposigao de variancia para cada 
variavel. 


. xtsum 

id t renda 

mort invest 






Variable 


1 

Mean 

Std. Dev. 

Min 

Max 

Observations 

id 

overall 


247181.8 

30742.95 

213100 

293168 

N = 

580 


between 



32377.97 

213100 

293168 

n = 

10 


within 



0 

247181.8 

247181.8 

T = 

58 

t 

overall 


29.5 

16.75512 

1 

58 

N = 

580 


between 



0 

29.5 

29.5 

n = 

10 


within 



16.75512 

1 

58 

T = 

58 

renda 

overall 


3381.312 

727.7594 

2232.427 

4349.093 

N = 

580 


between 



766.443 

2274.937 

4333.674 

n = 

10 


within 



5.399736 

3338.803 

3396.732 

T = 

58 

mort 

overall 


77.90436 

8.791768 

53.99449 

111.661 

N = 

580 


between 



8.559425 

66.21396 

90.79237 

n = 

10 


within 



3.353194 

62.46154 

98.77302 

T = 

58 

invest 

overall 


459.5017 

113.3427 

311.799 

639.6788 

N = 

580 


between 



119.3706 

312.0222 

639.0717 

n = 

10 


within 



.1166738 

458.8273 

460.1538 

T = 

58 


_7 


Verifica-se que as variaveis mort, renda e invest apresentaram maior vanacao entre in- 
dividuos ( between ) do que ao longo do tempo (within). Por outro lado, a variavel temporal 
(t) passa a apresentar variacao between nula, ja que se trata de um painel balanceado. 
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Da mesma forma que o procedimento realizado para o painel curto, os Resul- 
tados 9.14 apresentam os outputs dos modelos, considerando tambem seis diferentes 
estimadores. Os comandos para a realiza^ao de cada um deles isoladamente sao: 

- Efeitos Fixos: 

xtreg mort renda invest, fe 

- Efeitos Aleatorios: 

xtreg mort renda invest, re 

- Efeitos Fixos com Erros AR(1): 

xtregar mort renda invest, fe 

- Efeitos Aleatorios com Erros AR(1): 

xtregar mort renda invest, re 

- POLS com Erros AR(1) e correla^ao entre individuos: 

xtpcse mort renda invest, corr(arl) 

- FGLS com Erros AR(1) e correlagao entre individuos: 

xtgls mort renda invest, corr(arl) panels(correlated) 

Os Resultados 9.14 ja apresentam os outputs consolidados, obtidos por meio do 
seguinte comando: 

quietly xtreg mort renda invest, fe 

estimates store FE 

quietly xtreg mort renda invest, re 

estimates store RE 

quietly xtregar mort renda invest, fe 

estimates store FEAR1 

quietly xtregar mort renda invest, re 

estimates store REAR1 

quietly xtpcse mort renda invest, corr(arl) 
estimates store POLSAR1 

quietly xtgls mort renda invest, corr(arl) panels(correlated) 
estimates store FGLSAR1 

estimates table FE RE FEAR1 REAR1 POLSAR1 FGLSAR1, b se stats(N 
r2 r2_o r2_b r2_w F chi2) 

De acordo com os Resultados 9.14, e possivel verificar que os coeficientes estimados 
tambem variam entre os modelos. Ao se permitir que os termos de erro sejam correlaciona- 
dos entre municipios, verifica-se que ocorre, nesse exemplo, uma redu^ao dos erros-padrao 
dos modelos pooled com estimadores MQO e FGLS em compara^ao com aqueles obtidos 
anteriormente por meio dos modelos de efeitos fixos e aleatorios com termos de erro AR(1). 

Em rela^ao a adequa^ao dos modelos propriamente ditos, nota-se a significance es- 
tatistica do conjunto de variaveis em todos os casos, a exce^ao dos modelos com efeitos 
fixos com e sem termos de erro AR(l).Todavia, apenas nos modelos pooled com estima¬ 
dores MQO e FGLS os regressores renda e invest sao estatisticamente significantes, a um 
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RESULTADOS 9.14 Apresentando os outputs dos modelos em painel longo. 


quietly xtreg mort renda invest, fe 
estimates store FE 

quietly xtreg mort renda invest, re 
estimates store RE 

quietly xtregar mort renda invest, fe 
estimates store FEAR1 

quietly xtregar mort renda invest, re 
estimates store REAR1 

quietly xtpcse mort renda invest, corr(arl) 
estimates store P0LSAR1 

quietly xtgls mort renda invest, corr(arl) panels(correlated) 
estimates store FGLSAR1 

estimates table FE RE FEAR1 REARl POLSAR1 FGLSAR1, b se stats(N r2 r2_o r2_b r2_w F chi2) 


Variable 


FE 

RE 

FEAR1 

REARl 

POLSAR1 

FGLSAR1 

renda 


.03208082 

-.00868814 

.03523597 

-.00881594 

-.00905159 

-.00841292 



.02675909 

.00268194 

.02697191 

.00225389 

.0010679 

.0009141 

invest 


.64134944 

-.01545138 

.78883148 

-.01464767 

-.01315997 

-.01640914 



1.2384276 

.01722392 

1.2552555 

.01447386 

.00660736 

.0056251 

_cons 


-325.27208 

114.3816 

-403.69665 

114.44421 

114.55634 

114.01692 



596.67366 

2.1759433 

595.8692 

1.8265573 

.90538354 

.72671864 

N 


580 

580 

570 

580 

580 

580 

r2 


.00262936 




.81978445 


r2 o 


.82669735 

.83890377 

.82839386 

.83892521 



r2_b 


.96750407 

.98196673 

.96820013 

.98199588 



r2 w 


.00262936 

.00223196 

.00325154 

.00222724 



F 


.74870614 


.9101378 




chi2 

1 


381.2044 


542.07109 

2835.4893 

4269.6126 


legend: b/se 


nivel de 5% de significance, para explicar o comportamento da variavel dependente. Para 
este ultimo modelo (pooled com metodo de estimagao FGLS e termos de erro AR(1)), 
os parametros dos regressores sao ainda mais significantes, uma vez que os erros-padrao 
sao consideravelmente mais baixos. 

Para dados em painel longo, a consideragao de efeitos individuals com termos de erro AR(1) 
pode resultar em modelos melhores do que se forem considerados termos de erro i.i.d., o que 
podera gerar estimativas dos parametros mais eficientes, como ocorre neste caso. 


9.3. CONSIDERAgOESFINAIS 

Modelos de dados em painel possibilitam que o pesquisador avalie a relagao entre 
alguma variavel de desempenho e diversas variaveis preditoras, permitindo que se ela- 
borem inferences sobre as eventuais diferengas entre individuos e ao longo do tempo 
a respeito da evolugao daquilo que se pretende estudar. Dadas as suas caracteristicas, e 
natural que muitas pesquisas em ciencias sociais aplicadas venham a fazer uso de tais 
modelos, uma vez que muitos dados sao publicados com determinada periodicidade para 
empresas, municipios, estados ou paises. 
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Para tanto, e necessario, assim como para qualquer outra tecnica de modelagem, 
que a aplica^ao venha acompanhada de rigor metodologico e certos cuidados 
quando da analise dos resultados, principalmente se estes tiverem como objetivo 
a elabora^ao de previsoes. A ado^ao de determinado estimador, em detrimento de 
outro considerado viesado ou inconsistente, pode auxiliar o pesquisador na escolha 
do melhor modelo, valorizando a sua pesquisa e propiciando novos estudos sobre 
o tema escolhido. 

Neste capitulo, procurou-se elaborar seis diferentes modelos para um especifico 
painel curto e outros seis para um painel longo. A analise da contribui^ao da renda media 
familiar e do investimento em seguran^a publica sobre a mortalidade por causas externas 
de municipios brasileiros possibilita que seja incrementada a discussao sobre violencia 
urbana e desenvolvimento social, porem foi adotada apenas como exemplo dentro de 
um objetivo especifico, que foi o de apresentar como os diferentes estimadores podem 
gerar resultados discrepantes quando da elabora^ao de modelos de dados em painel e 
auxiliar para a escolha do modelo mais adequado, tanto no caso de um painel curto, 
quanto no de um painel longo. 

9.4. EXERCICIO 

1. Um cardiologista tern monitorado 10 pacientes, que sao executivos de empresas, ao 
longo dos ultimos 5 anos, em rela^ao aos seus niveis de colesterol LDL (mg/dL). 
Seu intuito e orienta-los sobre a importancia da manuten^ao ou perda de peso e 
da realiza^ao periodica de atividades fisicas para a redu^ao do colesterol e, portanto, 
elaborou uma base de dados que pode ser acessada por meio do arquivo colest.dta. 
As variaveis presentes nesta base sao: 


Variavel 

Descrigao 

ano 

Ano 

individuo 

Identifica^ao do executivo 

colesterol 

Colesterol LDL (mg/dL) 

imc 

Indice de massa corporea (kg/m 2 ) 

esporte 

Atividades fisicas semanais (numero de vezes) 


Por meio do uso desta base de dados, pede-se: 

a. Defma o painel com as variaveis individuo e ano. Trata-se de um painel balanceado? 

b. Elabore um grafico que apresenta a evolu^ao do indice de colesterol LDL ao 
longo dos anos, discriminando cada um dos executivos. E possivel, ainda que 
visualmente, perceber se ha diferen^as entre o comportamento da evolu^ao anual 
do indice de colesterol LDL entre os individuos? 

c. Elabore a decomposi^ao de variancia para cada variavel e discuta os resultados 
em termos de varia^ao within e between. 
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d. Deseja-se desenvolver o seguinte modelo, a fim de que seja possivel verificar a 
importancia da evolugao do mdice de massa corporea e da realizagao de atividades 
fisicas periodicas sobre o mdice de colesterol LDL. 

colesterol, = (5 0i + /3, . (i lmc) it + (3, .{esporte) it + £,, 

Desta forma, elabore as seguintes estimagoes, por meio do painel de dados, e dis¬ 
cuta os resultados: 

• POLS com Erros-Padrao Robustos Clusterizados. 

• Modelo com Estimador Between. 

• Efeitos Fixos. 

• Efeitos Fixos com Erros-Padrao Robustos Clusterizados. 

• Efeitos Aleatorios. 

• Efeitos Aleatorios com Erros-Padrao Robustos Clusterizados. 

e. E possivel verificar, em relagao a adequagao dos modelos, que o vetor de regres- 
sores apresenta significance estatistica em todos os casos (sig. F para os modelos 
POLS, between e com efeitos fixos, e sig. Wald % 2 para os modelos com efeitos 
aleatorios)? 

f. Verifica-se que os valores de R 2 between sao maiores do que os valores de R 2 
within em todos os modelos em que estas estatisticas sao calculadas. Justifique por 
qual razao este fato deve ter ocorrido. 

g. Elabore o teste Breusch-Pagan, o teste F de Chow e o teste de Hausman e discuta 
seus resultados. O que se pode avaliar sobre os efeitos fixos e os efeitos aleatorios 
neste painel de dados? 

h. Elabore uma tabela com os coeficientes do modelo com efeitos fixos para cada um 
dos executivos da amostra. Ha diferengas entre eles, em termos de comportamento 
das variaveis imc e esporte sobre a variavel colesterol ? Como voce, cardiologista, 
orientaria cada um dos pacientes? 
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